Hay inteligencias artificiales que están entrenando en secreto con imágenes reales de menores de edad

By - Paraguay junio 11, 20243 Mins Read

Más de 170 imágenes e información personal de niños de Brasil han sido extraídas de un conjunto de datos de código abierto sin su conocimiento o consentimiento, y empleadas para entrenar la inteligencia artificial (IA), señala un nuevo informe de Human Rights Watch publicado el lunes.

De acuerdo con este, las imágenes se obtuvieron de contenidos publicados en fechas tan recientes como 2023 y tan lejanas como mediados de los noventa, mucho antes de que cualquier usuario de internet pudiera prever que su material se utilizaría para entrenar la IA. Human Rights Watch sostiene que la información personal de estos niños, junto con los enlaces URL a sus fotografías, se incluyeron en LAION-5B, un conjunto que ha sido una fuente popular de datos de entrenamiento para las startups de IA.

Sombra de una persona usando un smartphone

Así podrás evitar que tus datos sean utilizados para entrenar a la IA

Algunas compañías te dan la opción de no permitir que tu contenido se destine a la IA generativa. Aquí te explicamos cómo recuperar (al menos un poco) el control frente a ChatGPT, Google Gemini y otros modelos y plataformas.

Privacidad de menores de edad en peligro por la IA

“Su intimidad se viola en primera instancia cuando se extraen [de la web] sus fotos y se introducen en estos conjuntos de datos. Y después, estas herramientas de IA se entrenan con esta información y, por tanto, son capaces de crear imágenes realistas de niños”, destaca Hye Jung Han, investigadora sobre derechos de la infancia y tecnología de Human Rights Watch quien encontró este contenido. “La tecnología está desarrollada de tal manera que cualquier niño que tenga alguna foto o video suyo en internet está ahora en peligro, porque cualquier actor malintencionado podría tomar esa foto y luego usar estas herramientas para manipularla como quiera”.

LAION-5B se apoya en Common Crawl, un repositorio de datos que se construyó raspando internet (web scraping) y se puso a disposición de los investigadores, y se ha empleado para entrenar varios modelos de IA, incluida la herramienta de generación de imágenes Stable Diffusion de Stability AI. Creado por la organización alemana sin fines lucrativos LAION, el conjunto de datos es de libre acceso y actualmente incluye más de 5,850 millones de pares de imágenes y pies de foto, según su sitio web.

Las imágenes de niños que hallaron los investigadores procedían de blogs de mamás y otros de caracter personal, de maternidad o de crianza, así como de imágenes fijas de videos de YouTube con un número reducido de visitas, que aparentemente se subieron para compartirlas con familiares y amigos.

“Basta con observar el contexto de dónde se publicaron para darse cuenta de que disfrutaban de una cierta expectativa y grado de privacidad”, resalta Hye. “La mayoría de estas imágenes no se podían encontrar en internet mediante una búsqueda inversa”.

Nate Tyler, vocero de LAION, manifiesta que la organización ya ha tomado medidas. “LAION-5B se retiró en respuesta a un informe de [la Universidad de] Stanford que encontró enlaces en el conjunto de datos que apuntaban a contenidos ilegales en la web pública”, indica, y añade que están trabajando actualmente con “la Internet Watch Foundation, el Centro Canadiense para la Protección de la Infancia, la Universidad de Stanford y Human Rights Watch para eliminar todas las referencias conocidas a contenidos ilícitos”.

source

Shopping cart

Recent Posts

Periodista: La impotencia en el

Leganés – Villarreal: Horario y

Manolo González lo tiene claro: