Dades etiquetades

Les dades etiquetades són un grup de mostres que s'han etiquetat amb una o més etiquetes. L'etiquetatge normalment pren un conjunt de dades sense etiquetar i n'augmenta cada part amb etiquetes informatives. Per exemple, una etiqueta de dades pot indicar si una foto conté un cavall o una vaca, quines paraules s'han pronunciat en una gravació d'àudio, quin tipus d'acció s'està realitzant en un vídeo, quin és el tema d'una notícia, quin és el conjunt el sentiment d'un tuit és, o si un punt en una radiografia és un tumor.

Les etiquetes es poden obtenir demanant als humans que emetin judicis sobre una determinada peça de dades sense etiquetar. Les dades etiquetades són significativament més cares d'obtenir que les dades en brut sense etiquetar.[1]

Dades etiquetades col·lectivament

El 2006 Fei-Fei Li, el codirector de l'Institut d'IA centrat en l'ésser humà de Stanford, es va proposar millorar els models i els algorismes d'intel·ligència artificial per al reconeixement d'imatges augmentant significativament les dades d'entrenament. Els investigadors van descarregar milions d'imatges de la World Wide Web i un equip d'estudiants va començar a aplicar etiquetes d'objectes a cada imatge. El 2007, Li va subcontractar el treball d'etiquetatge de dades a Amazon Mechanical Turk, un mercat en línia per a treballs digitals per peces. Els 3,2 milions d'imatges que van ser etiquetades per més de 49.000 treballadors van constituir la base d'ImageNet, una de les bases de dades etiquetades a mà més grans per a l'esquema del reconeixement d'objectes.[2]

Etiquetatge automatitzat de dades

Després d'obtenir un conjunt de dades etiquetat, es poden aplicar models d'aprenentatge automàtic a les dades de manera que es puguin presentar noves dades sense etiquetar al model i es pugui endevinar o predir una etiqueta probable per a aquesta peça de dades sense etiquetar.

Biaix basat en dades

La presa de decisions algorítmica està subjecta al biaix impulsat pel programador i també al biaix basat en dades. Les dades d'entrenament que es basen en dades etiquetades de biaix donaran lloc a prejudicis i omissions en un model predictiu, tot i que l'algorisme d'aprenentatge automàtic és legítim. Les dades etiquetades que s'utilitzen per entrenar un algorisme específic d'aprenentatge automàtic han de ser una mostra estadísticament representativa per no esbiaixar els resultats.[3] Com que les dades etiquetades disponibles per entrenar els sistemes de reconeixement facial no han estat representatives d'una població, els grups subrepresentats a les dades etiquetades sovint es classifiquen malament. L'any 2018, un estudi de Joy Buolamwini i Timnit Gebru va demostrar que dos conjunts de dades d'anàlisi facial que s'han utilitzat per entrenar algorismes de reconeixement facial, IJB-A i Adience, estan formats per un 79,6% i un 86,2% d'humans de pell més clara, respectivament.[4]

Referències

  1. «What is Data Labeling? | IBM» (en anglès americà). https://www.ibm.com.+[Consulta: 2 setembre 2023].
  2. Mary L. Gray. Ghost Work: How to Stop Silicon Valley from Building a New Global Underclass (en anglès). Houghton Mifflin Harcourt, 2019, p. 7. ISBN 9781328566287. 
  3. Steering AI and advanced ICTs for knowledge societies: a Rights, Openness, Access, and Multi-stakeholder Perspective (en anglès). UNESCO Publishing, 2019, p. 64. ISBN 9789231003639. 
  4. Steering AI and advanced ICTs for knowledge societies: a Rights, Openness, Access, and Multi-stakeholder Perspective (en anglès). UNESCO Publishing, 2019, p. 66. ISBN 9789231003639.