Annoter des données, aussi petites soient-elles, peut avoir un impact significatif
C'est le élément clé dans l'efficacité de tout modèle d'IA, car le seul moyen pour une IA de détection d'image d'identifier le visage sur une photographie est qu'un grand nombre de photos étiquetées avec le mot « visage » soient étiquetées comme telles. S'il n'y a pas de données annotées, alors il n'existe aucun modèle d'apprentissage automatique.
Quel est le but de l’annotation des données ?
L’objectif principal des informations d’annotation est de les étiqueter. L'étiquetage des données est l'une des toutes premières étapes de tout flux de données. De plus, le processus d’étiquetage des données aboutit généralement à des données plus rationalisées ainsi qu’à des opportunités supplémentaires.
Données d'étiquetage
Il est important de garder à l’esprit deux choses essentielles lors de l’annotation d’informations :
Données
- Une convention de nom cohérente
- À mesure que les projets de labellisation progressent, les conventions des labels vont probablement devenir plus complexes.
Parfois, après avoir préparé un modèle ML à l'aide de votre données vous réaliserez peut-être que les conventions de dénomination n'étaient pas suffisantes pour produire le type de modèle ML ou de prédictions que vous aviez en tête. Ensuite, vous devez retourner aux planches à dessin et repenser les balises pour les données.
Nettoyer les données
- Des données propres créent des modèles de ML plus fiables. Pour déterminer si les données sont exemptes de contamination :
- Examinez les données pour trouver des valeurs aberrantes.
- Testez les données pour déterminer s'il existe des valeurs manquantes ou des valeurs non valides.
- Assurez-vous que les étiquettes sont conformes aux conventions.
L'annotation est un moyen d'améliorer la qualité des données. Cela pourrait combler les lacunes des données là où elles existent. Lors de l'exploration de l'ensemble de données, il est possible de découvrir des données médiocres ou des données aberrantes. L'annotation des données pourrait être utilisée pour :
- Les données ne sont pas correctement étiquetées ou les données comportent des étiquettes manquantes.
- Rendre de nouvelles données disponibles à utiliser dans le modèle ML à utiliser
Annotation humaine ou automatisée
L'annotation des données peut être coûteuse selon la méthode utilisée.
Certains types de données peuvent être notés ou, à tout le moins, annotés de manière automatisée avec un certain degré de précision. Par exemple, voici quelques exemples simples d’annotation :
- Recherchez une image d'un cheval sur Google, puis téléchargez les 1 000 meilleures photos pour créer une image de cheval.
- Supprimer les sites médiatiques pour tout le contenu sportif, puis étiqueter les articles comme des articles sur le sport.
- Il est facile de collecter des informations sur les chevaux et les sports ; cependant, le degré d'exactitude de ces données n'est pas connu avant une enquête plus approfondie. Il est possible que certaines des photos de chevaux téléchargées ne soient pas de vraies photos de chevaux, mais c'est une possibilité.
L'automatisation réduit les coûts, mais peut compromettre la précision. L'annotation humaine coûte cher, mais elle est plus précise.
Les annotateurs de données peuvent annoter les données en fonction de l'exactitude de leurs informations. S’il s’agit d’une image d’un cheval, les humains peuvent le vérifier. Lorsque le sujet connaît bien les races de chevaux, les informations peuvent en outre être ajoutées à la race de cheval. Il est également possible de dessiner un contour de l'image du cheval pour indiquer précisément quels pixels appartiennent à l'image du cheval. Pour les articles sur le sport, il est possible de diviser l'article en rapport de match, analyse sportive des joueurs, pronostics de match. Si les informations sont classées exclusivement par sports alors le tag est moins précis.
En fin de compte, les données sont annotées pour :
- Un certain degré de précision
- Un certain degré de précision
- Quel est le plus important ? Mais cela dépend de la manière dont le problème d'apprentissage automatique est déterminé.
Apprentissage humain dans la boucle
En informatique, la mentalité « distribuée » consiste à diriger les emplois vers un seul endroit pour se débarrasser d’énormes quantités de travail empilées sur un seul endroit. C'est le cas de l'architecture Kubernetes ainsi que des idées d'IA de pointe sur l'infrastructure de traitement informatique, de l'architecture des microservices et c'est vrai pour l'annotation des données.
L'annotation des données peut être moins coûteuse et même gratuite lorsque l'annotation a lieu pendant la procédure de l'utilisateur.
C'est un travail inintéressant et ennuyeux pour un individu que d'avoir la possibilité d'étiqueter des données pendant des heures. Si l'étiquetage est naturel dans l'expérience utilisateur, ou peut-être occasionnellement par diverses personnes plutôt que par une seule personne, alors le travail peut être effectué plus facilement et la possibilité de recevoir des annotations pourrait être réalisable.
C'est ce qu'on appelle l'humain dans la boucle (HITL) et c'est généralement l'une des fonctions d'un modèle d'apprentissage automatique bien établi.
Par exemple, Google a inclus HITL et l'annotation de données dans son application Google Docs. Lorsque l'utilisateur clique sur le mot en utilisant la ligne ondulée en dessous, puis sélectionne un autre mot ou un mot dont l'orthographe est corrigée, Google Docs obtient un morceau de données balisé pour confirmer que le mot prédit est le remplacement correct du mot qui a le erreur.
Google Docs a inclus ses utilisateurs dans le processus en introduisant une fonctionnalité simple de l'application qui permet aux utilisateurs de recevoir des données réelles et des données annotées de ses utilisateurs.
De cette manière, Google s'approprie en quelque sorte son problème d'annotation de données et n'a pas besoin d'embaucher des équipes de travailleurs qui restent assis à leur bureau toute la journée à lire la mauvaise orthographe des mots.
Outils d'aide à l'annotation des données
Les outils d'annotation sont des instruments créés pour faciliter l'annotation de parties spécifiques de données. Les types de données qu'ils peuvent accepter sont :
- Texte
- Image
- l'audio
Le logiciel dispose généralement d'une interface qui permet aux utilisateurs de faire facilement des annotations puis d'exporter les données dans différents formats. Les données exportées peuvent être enregistrées sous forme de fichier .CSV sous forme de document texte, de fichier photo, ou même transformer les données au format JSON spécifiquement adapté au standard utilisé pour entraîner les données à utiliser dans une Machine. Modèle d'apprentissage.
Il existe deux outils largement utilisés pour l'annotation :
- Prodige
- Studio d'étiquettes
Cependant, ce n’est pas la majorité d’entre eux. Awesome-data-annotation est un référentiel Labelify avec une excellente liste d'outils d'annotation de données à utiliser.
L'annotation des données et son rôle dans l'apprentissage automatique
- L'annotation de données est un business
- L'annotation des données est vitale pour l'IA et l'apprentissage automatique et les deux ont apporté une immense valeur à l'humanité.
Afin de continuer à se développer dans le secteur de l’IA, davantage d’experts en annotation de données sont nécessaires, et ils le seront pendant longtemps. L'annotation de données est une industrie en plein essor et devrait se développer à mesure que des ensembles de données plus nombreux et plus riches sont nécessaires pour résoudre les problèmes les plus complexes de l'apprentissage automatique.