La inteligencia artificial (IA) no es tan automática como se predica. Esta tecnología funciona gracias a potentes computadoras que ejecutan cálculos sobre extensas bases de datos. Pero esas bases de datos hay que arreglarlas y probarlas, un trabajo manual que las empresas subcontratan a legiones de trabajadores a los que se paga generalmente muy poco; a veces, céntimos de dólar por cada tarea realizada. Esta realidad quedó descrita en el libro. Trabajo fantasma (en español, Trabajo fantasma), publicado en 2019 por Mary Gray, antropóloga e investigadora de Microsoft, y su colega Siddarth Suri.
En el momento de publicarse esa obra, Milagros Miceli (Buenos Aires, 41 años), socióloga y doctora en Ciencias de la Computación, llevaba ya dos años investigando el tema. Cuando la contrataron en el recién creado Instituto Alemán de Internet —que lleva el nombre del pionero en IA Joseph Weizenbaum—, se abordaron las consecuencias sociales de los algoritmos desde un punto de vista muy teórico. Miceli quiso ir más allá. “Me pregunté si alguien estaba hablando con la gente detrás de esos algoritmos. Así llegué hasta los anotadores de datos, quienes etiquetan imágenes de sillas con la palabra ‘silla’ para que la máquina aprenda a distinguirlas, y luego en los trabajadores de datos, un concepto que desarrollamos nosotros”, explica.
Desde entonces, Miceli ha seguido ese tema. Hoy es una de las principales expertas en el poco conocido campo de los trabajadores de datos. También es investigadora principal en DAIR Institute, el centro fundado por Timnit Gebru, la responsable de ética de la IA de Google que fue despedida poco después de firmar un informe en el que la empresa no salía bien parada. Ha participado este mes de diciembre en las III Jornadas sobre pensar la justicia digital global, celebradas en Barcelona, para hablar sobre todo ello.
Pregunta. ¿Qué es un trabajador de datos?
Respuesta. Una trabajadora de datos es una persona que, básicamente, produce datos para entrenar sistemas de IA. Esa tarea puede desarrollarse grabando su propia voz, subiendo selfis, etiquetando y clasificando datos, interpretándolos… Lo que mucha gente a veces no se imagina es que esto es un trabajo continuo, no se termina en el momento. Los sistemas requieren de trabajo manual, como mantener los conjuntos de datos, comprobarlos o afinarlos.
PAG. ¿Qué tipo de cualificación hace falta para desarrollar estas tareas?
r. Existe el mito de que quienes hacen esto no son trabajadores cualificados. Pero, en la práctica, se trata de trabajadores que han cursado por lo menos estudios terciarios o superiores. Yo he conocido gente que tiene hasta doctorados y está haciendo este tipo de trabajos.
PAG. ¿Dónde se localizan los trabajadores de datos?
r. Abundan en poblaciones vulnerables o pobres, con una tasa de desocupación muy alta, pero que tienen estudios superiores. La naturaleza del trabajo es realmente muy difícil. Yo lo he probado. No solo requiere un nivel de conocimiento formal, sino también artesanal.
PAG. ¿Me podría poner un ejemplo?
r. El etiquetado y la segmentación de imágenes satelitales son áreas muy comunes. Es dificilísimo. Primero, es agotador para los ojos y la mano que mueve el ratón sin parar. Además de eso, hay que estar muy atento para separar bien un árbol de una persona, o una casa de un coche, en imágenes que muchas veces son borrosas. Eso exige cierto conocimiento de la arquitectura y la geografía específica de un país. Y si uno lo hace mal, no le pagan nada.
PAG. ¿Cuál es la situación de los trabajadores de datos?
r. Sigue sin cambiar desde que esto empezó. Están en situación de total precariedad y desprotección. Aquí manda lo que una vez se llamó la uberización del trabajo: se les paga por tarea cumplida, y no por el tiempo que les lleva hacer la tarea. En el caso de las trabajadoras de datos, no se cuenta el rato que tardan en loguearse, en encontrar una tarea disponible, que no siempre las hay, o en entender las instrucciones, que pueden ser muy complejas y que casi siempre están en inglés. Todo con el riesgo de que el cliente diga luego que no se hizo como pedía, y entonces no paga. Eso pasa en muchos casos, y además el cliente tiene derecho a quedarse con los datos que le han sido entregados.
A algunos trabajadores de datos se les bloquea en las plataformas para hacer preguntas, por ejemplo, sobre el salario. Luego, algunas plataformas, como la mayor de todas, Amazon Mechanical Turk, no pagan con dinero, sino con vales, en este caso, para gastar en Amazon. Así se hace un monopolio perfecto. Por supuesto, cuando al trabajador le pasa algo, como tener secuelas por trabajar con contenidos que sean psicológicamente perturbadores, nadie les ayuda. En muchos casos firmaron antes un acuerdo de confidencialidad que les prohíbe revelar la naturaleza de lo que hacen. Algunos trabajadores nos han dicho que, por ese motivo, y pese a sufrir estrés postraumático, han evitado que les vean terapeutas. Tampoco pueden poner en su currículum que han sido moderadoras de contenidos de tal gran plataforma.
PAG. ¿Entonces, hay moderadores de contenido que no están en nómina, sino que entran por esta vía de microtrabajos?
r. Hay moderadores de contenido que no están contratados, y la mayoría de los moderadores y moderadoras de contenido tienen contratos precarios a través de terceras empresas en Europa, pero muchos también en países del sur global. Esas empresas, por cierto, son las mismas que antes hacían etiquetado de imágenes. De hecho, muchas veces las mismas personas van rotando de un equipo al otro. Por otra parte, la moderación de contenido muchas veces la hacen al mismo tiempo que el etiquetado de datos: deciden si lo que están supervisando es o no discurso de odio, información que después sirve para entrenar los algoritmos.
PAG. ¿Se sabe cuántos trabajadores de datos hay?
r. Es muy difícil dar un número. El Banco Mundial, una institución conservadora, dice que en el mundo hay entre 150 y 420 millones. Lo que sí sabemos es que los números han crecido exponencialmente en los últimos años. Esto de que se va a automatizar el trabajo es mentira. La IA necesita mucho trabajo manual.
PAG. El discurso de la uberización Dice que los microtrabajadores quieren realizar trabajos en momentos puntuales, como complemento de su salario. Lo mismo que argumentan en Glovo. ¿Es así? ¿Los trabajadores de datos lo son a tiempo completo o solo a ratos?
r. Es otro mito, sí. Apenas hay trabajadores de datos ocasionales, y eso tiene que ver con la complejidad y alta profesionalización requeridas, como comentamos antes, para realizar estas tareas. Cuanto más deseable se vuelven los modelos de IA, más cualificados tienen que ser los trabajadores que operan con sus bases de datos. Ya no es como hace diez años, que se pedía identificar gatitos en una serie de fotos. Eso ya no existe. Para ganar algo de dinero en esto, es necesario trabajar todos los días.
PAG. El ejemplo clásico de microtrabajos digitales, como dice, era el etiquetado de imágenes. ¿Ahora qué es lo más demandado?
r. Hace siete años, cuando yo empecé en esto, la moda era el etiquetado de fotografías. Lo importante era tener cantidad, no calidad. En 2019 hicimos un estudio en el que analizábamos las instrucciones que se les daban a los trabajadores y la mayoría iban en esa línea. Pero recientemente ha habido un vuelco muy marcado hacia las tareas que tienen que ver más con lo lingüístico y la IA generativa: producir datos desde cero con un propósito específico. Por ejemplo, se contratan artistas desocupados y se les pide que creen imágenes de acuerdo con ciertas instrucciones básicas, los llamados. indicaciones. Eso luego se le da al algoritmo de Midjourney para que perfeccione su funcionamiento. O se contrata a periodistas o escritores para que escriban crónicas o historias cortas para que la máquina extraiga patrones. También se graba a personas leyendo textos en dialectos o lenguas minoritarias para enriquecer las bases de datos.
PAG. ¿Puede funcionar la IA sin este trabajo manual? ¿Necesita apoyo humano las 24 horas del día?
r. Este sistema está diseñado para tener una disponibilidad de trabajadores las 24 horas del día, los siete días de la semana, y pagándoles el mínimo indispensable. Y si no gustan las condiciones, las empresas se pueden mover al siguiente país o población. Manda la gran escala, y eso funciona solamente si tenemos millones de trabajadores. Por supuesto, hay otra forma de hacer las cosas. Los modelos funcionan mejor si están entrenados en conjuntos de datos más pequeños, pero mejores curados. Para eso no necesitas millones de trabajadores, sino buenos profesionales y comunicarte con ellos. Lo contrario de la anonimidad y de la mediación algorítmica.
PAG. Los últimos modelos de IA generativa ya se han entrenado con todos los datos disponibles en internet, por lo que los de nueva generación deberán incluir todo eso y además nuevos datos sintéticos o producidos de manera artificial. ¿Cree que la IA generativa disparará la demanda de trabajadores de datos?
r. Si tuviera que hacer un pronóstico es que los trabajadores de datos van a seguir creciendo. Incluso quienes apuestan a que el futuro está en los datos sintéticos, los generados por máquinas, saben que eso es difícil desde un punto de vista técnico. Sin entrar en mucho detalle, entrenar una IA con datos generados por una IA produce un bucle, termina repitiendo lo mismo, es como un juego de espejos infinito. Así que se seguirán necesitando escritores, artistas, periodistas o traductores para que generen datos que sirvan para enriquecer las bases de datos sobre las que se aplican los algoritmos.
Pero incluso si pudiera entrenar modelos con datos sintéticos, seguirías necesitando trabajadores de datos para tareas de verificación algorítmica, que consisten en sentarte, por ejemplo, con ChatGPT y hacerle preguntas y decir si lo que responde está bien o mal, si hay una mejor opción, etcétera. Siguiendo con el lenguaje, se trata de algo dinámico, que va cambiando. Los chatbots hay que perfeccionarlos constantemente, y eso solamente lo podemos hacer los humanos, porque conocemos y entendemos los contextos.
PAG. ¿Por qué cree que esta dimensión manual de la IA es tan opaca?
r. Es totalmente intencional. Se vende el mito de una tecnología que es milagrosa e increíblemente poderosa, ya la que debemos temer porque nos puede llegar a matar a todos. Yo añado a eso que esta tecnología está basada en el trabajo en negro, en el trabajo precarizado, en el trabajo explotador de millones de trabajadores. Pero para vender ese mito de la tecnología ultrapoderosa y temible, hace falta borrar todo rastro de humanidad. Sin embargo, la IA no funcionaría sin legiones de trabajadores manuales. ¿Para qué seguir escondiéndolos y precarizándolos?