Das Kommentieren von Daten, egal wie klein sie sind, kann eine erhebliche Wirkung haben
Es ist der Schlüsselelement in der Wirksamkeit für jedes KI-Modell, da die einzige Möglichkeit für eine Bilderkennungs-KI, das Gesicht auf einem Foto zu identifizieren, darin besteht, dass eine große Anzahl von Fotos mit dem Wort „Gesicht“ gekennzeichnet wurde. Wenn es keine annotierten Daten gibt, gibt es kein Modell für maschinelles Lernen.
Was ist der Zweck der Datenanmerkung?
Der Hauptzweck von Anmerkungsinformationen besteht darin, sie zu kennzeichnen. Das Kennzeichnen von Daten ist einer der allerersten Schritte jedes Datenflusses. Darüber hinaus führt der Prozess der Datenkennzeichnung in der Regel zu optimierten Daten und zusätzlichen Möglichkeiten.
Daten kennzeichnen
Bei der Kommentierung von Informationen ist es wichtig, zwei wesentliche Dinge zu berücksichtigen:
Daten
- Eine konsistente Namenskonvention
- Je weiter die Kennzeichnungsprojekte voranschreiten, desto komplexer werden die Konventionen der Kennzeichnungen.
Manchmal, nachdem Sie ein ML-Modell mit Ihrem vorbereitet haben Daten Möglicherweise stellen Sie fest, dass die Namenskonventionen nicht ausreichten, um die Art von ML-Modell oder Vorhersagen zu erstellen, die Sie sich vorgestellt hatten. Dann müssen Sie zum Zeichenbrett zurückkehren und die Tags für die Daten neu entwerfen.
Saubere Daten
- Saubere Daten erstellen zuverlässigere ML-Modelle. Um festzustellen, ob die Daten frei von Kontaminationen sind:
- Untersuchen Sie die Daten, um Ausreißer zu finden.
- Testen Sie die Daten, um festzustellen, ob Werte fehlen oder ungültig sind.
- Stellen Sie sicher, dass die Etiketten den Konventionen entsprechen.
Annotation ist eine Möglichkeit, die Qualität von Daten zu verbessern. Es könnte die Lücken in den Daten schließen, sofern vorhanden. Bei der Untersuchung des Datensatzes ist es möglich, schlechte Daten oder Datenausreißer aufzudecken. Datenanmerkungen könnten verwendet werden, um:
- Die Daten sind nicht richtig beschriftet oder die Daten weisen fehlende Beschriftungen auf
- Stellen Sie neue Daten zur Verfügung, die im ML-Modell verwendet werden können
Menschliche oder automatisierte Anmerkung
Das Kommentieren von Daten kann je nach verwendeter Methode teuer sein.
Bestimmte Arten von Daten können mit automatisierten Methoden mit einem gewissen Grad an Präzision notiert oder zumindest annotiert werden. Im Folgenden finden Sie beispielsweise einige einfache Beispiele für Anmerkungen:
- Googlen Sie ein Bild eines Pferdes und laden Sie dann die 1000 besten Fotos herunter, um ein Pferdebild zu erstellen.
- Durchsuchen Sie Medienseiten nach allen Sportinhalten und kennzeichnen Sie die Artikel dann als Artikel über Sport.
- Es ist einfach, Informationen über Pferde und Sport zu sammeln. Der Grad der Genauigkeit dieser Daten ist jedoch erst durch weitere Untersuchungen bekannt. Es ist möglich, dass es sich bei einigen der heruntergeladenen Pferdebilder nicht um echte Fotos von Pferden handelt, aber es besteht die Möglichkeit.
Automatisierung senkt die Kosten, kann jedoch die Genauigkeit beeinträchtigen. Menschliche Anmerkungen sind teuer, aber präziser.
Datenannotatoren können entsprechend der Genauigkeit ihrer Informationen Anmerkungen zu Daten machen. Wenn es sich um ein Bild eines Pferdes handelt, können Menschen dies überprüfen. Wenn sich die Person mit den Pferderassen auskennt, können die Informationen weiter zur Pferderasse hinzugefügt werden. Es ist auch möglich, einen Umriss des Pferdebildes zu zeichnen, um genau anzugeben, welche Pixel zum Pferdebild gehören. Bei Artikeln über Sport ist es möglich, den Artikel in einen Spielbericht, eine Sportanalyse der Spieler und Spielprognosen zu unterteilen. Wenn die Informationen ausschließlich nach Sportarten klassifiziert sind, ist das Tag weniger präzise.
Am Ende des Tages werden die Daten für beide mit Anmerkungen versehen:
- Ein gewisses Maß an Präzision
- Ein gewisses Maß an Genauigkeit
- Was ist das Wichtigste? Es hängt jedoch davon ab, wie das Problem des maschinellen Lernens ermittelt wird.
Human-in-the-Loop-Lernen
In der IT bezeichnet die „verteilte“ Denkweise das Konzept, Arbeitsplätze an einen Ort zu leiten, um zu vermeiden, dass riesige Arbeitsmengen an einem einzigen Ort gestapelt werden. Dies gilt sowohl für die Kubernetes-Architektur als auch für die Computerverarbeitungsinfrastruktur, innovative KI-Ideen, die Microservices-Architektur und die Annotation von Daten.
Das Annotieren von Daten kann kostengünstiger und sogar kostenlos sein, wenn die Annotation während des Benutzervorgangs erfolgt.
Für einen Einzelnen ist es eine uninteressante und langweilige Aufgabe, stundenlang die Möglichkeit zu haben, Daten zu kennzeichnen. Wenn die Kennzeichnung innerhalb der Benutzererfahrung natürlich erfolgt oder vielleicht gelegentlich von einer Vielzahl von Personen und nicht nur von einer Person erfolgt, kann die Aufgabe einfacher erledigt werden und das Potenzial zum Empfangen von Anmerkungen könnte erreichbar sein.
Dies wird als Human-in-the-Loop (HITL) bezeichnet und ist typischerweise eine der Funktionen eines etablierten Modells des maschinellen Lernens.
Beispielsweise hat Google HITL und Datenanmerkungen in seine Google Docs-Anwendung integriert. Wenn der Benutzer mithilfe der Wellenlinie darunter auf das Wort klickt und dann ein anderes oder ein buchstabiertes Wort auswählt, erhält Google Docs ein markiertes Datenbit, um zu bestätigen, dass das vorhergesagte Wort der richtige Ersatz für das Wort ist, das das Wort enthält Fehler.
Google Docs hat seine Benutzer in den Prozess einbezogen, indem es eine einfache Funktion der App eingeführt hat, die es Benutzern ermöglicht, reale Daten und kommentierte Daten von seinen Benutzern zu erhalten.
Auf diese Weise nutzt Google sein Problem der Datenannotation gewissermaßen per Crowdsourcing und muss keine Teams von Mitarbeitern einstellen, die den ganzen Tag an ihren Schreibtischen sitzen und die falsche Schreibweise von Wörtern lesen.
Tools zur Unterstützung der Annotation von Daten
Annotationstools sind Instrumente, die zur Unterstützung bei der Annotation bestimmter Datenteile entwickelt wurden. Die Arten von Daten, die sie akzeptieren können, sind:
- Text
- Bild
- Audio
Die Software verfügt im Allgemeinen über eine Schnittstelle, die es Benutzern ermöglicht, einfach Anmerkungen vorzunehmen und die Daten dann in verschiedene Formate zu exportieren. Die exportierten Daten können in Form einer CSV-Datei als Textdokument oder Fotodatei gespeichert oder sogar in das JSON-Format umgewandelt werden, das speziell auf den Standard zugeschnitten ist, der zum Trainieren der Daten für die Verwendung in einer Maschine verwendet wird Lernmodell.
Es gibt zwei weit verbreitete Werkzeuge zur Annotation:
- Wunder
- Etikettenstudio
Allerdings ist das nicht die Mehrheit von ihnen. Awesome-data-annotation ist ein Labelify-Repository mit einer hervorragenden Liste an zu verwendenden Datenanmerkungstools.
Datenannotation und ihre Rolle beim maschinellen Lernen
- Datenannotation ist ein Geschäft
- Die Annotation von Daten ist für KI und maschinelles Lernen von entscheidender Bedeutung und beide haben der Menschheit einen enormen Mehrwert gebracht.
Um im KI-Bereich weiter zu expandieren, sind mehr Datenannotationsexperten erforderlich, und das wird noch lange der Fall sein. Die Datenannotation ist eine boomende Branche und wird voraussichtlich wachsen, da mehr und umfangreichere Datensätze erforderlich sind, um die kompliziertesten Probleme des maschinellen Lernens zu lösen.