Ciencia y Tecnología

El riesgo de alimentar la IA con datos generados por el propio sistema

3 agosto, 2024 9:22 am
AFP

París, Francia.- Los modelos de inteligencia artificial (IA) se abastecen sin parar de datos generados por la propia IA, lo que desemboca en la creación de contenidos cada vez más incoherentes, un problema que ya han señalado varios estudios científicos.

Los modelos en los que se basan las herramientas de IA generativa, como ChatGPT, que permiten crear todo tipo de contenidos con simples preguntas, necesitan ser ejercitados con un nombre colosal de datos.

Estos datos a menudo vienen de internet, que cada vez contiene más imágenes y textos creados por la propia IA.

Esta autoalimentación de la IA lleva a un deterioro de los modelos, que producen respuestas que van siendo cada vez menos originales y pertinentes y acaban por no tener ningún sentido, según un artículo publicado a finales de julio por la revista científica Nature.

Con el uso de este tipo de datos, llamados “datos sintéticos” porque están generados artificialmente, la muestra en la que se basan los modelos de IA para dar respuestas va perdiendo calidad.

– Como las vacas locas –

Investigadores de las Universidades de Rice y de Stanford, en Estados Unidos, llegaron a la misma conclusión analizando los modelos de IA generadores de imágenes Midjourney, Dall-E y Stable Diffusion.

Los estudios mostraron que las imágenes generadas eran cada vez menos originales e iban incorporando elementos incoherentes a medida que se añadían datos “artificiales” en el modelo, y compararon este fenómeno con la enfermedad de las vacas locas.

Esta epidemia, surgida en el Reino Unido, empezó con el uso para alimentar a los bovinos de harinas animales, obtenidas a partir de partes no consumidas de restos vacunos o de cadáveres de animales contaminados.

Las empresas del sector de la IA utilizan a menudo “datos sintéticos” para alimentar a sus programas debido a su fácil acceso, su abundancia y el bajo coste, comparado con datos creados por humanos.

Estas “fuentes de datos humanos sin explotar, de alta calidad” son cada vez más minoritarias, explica a AFP Jathan Sadowski, investigador especializado en las nuevas tecnologías de la Universidad de Monash, en Australia.

“Sin ningún control durante varias generaciones”, la peor hipótesis sería que la degradación de los modelos “envenene la calidad y la diversidad de los datos en todo internet”, advierte Richard Baraniuk, uno de los autores del artículo de la Universidad de Rice, en un comunicado.

Así como la crisis de las vacas locas hundió la industria cárnica en los años 1990, un internet repleto de contenidos hechos con IA y de modelos descontrolados podría amenazar el futuro del sector, en pleno auge, según los científicos.

“La verdadera pregunta para los investigadores y las empresas que construyen los sistemas de IA es: ¿cuándo el uso de los datos sintéticos es demasiado?”, dice Sadowski.

– “Basura” –

Para otros especialistas, no obstante, el problema es exagerado.

Anthropic y Hugging Face, dos líderes del sector que afirman tener en cuenta el lado ético de la tecnología, confirman a AFP utilizar datos generados por la IA.

El artículo de la revista Nature presenta una perspectiva teórica interesante, pero poco realista, según Anton Lozhkov, ingeniero en aprendizaje automático en Hugging Face.

El entrenamiento [de los modelos] en varias series de datos sintéticos es algo que simplemente no se hace en realidad”, asegura.

Lozhkov admite sin embargo que los expertos de la IA se sienten frustrados ante la situación en que se encuentra internet.

“Una gran parte de internet es una basura”, dice, y agrega que su empresa ha hecho grandes esfuerzos para limpiar este tipo de datos, suprimiendo a veces hasta un 90% de contenido.

Etiquetas
inteligencia artificial

Facebook X LinkedIn Messenger Messenger WhatsApp Telegram Share via Email

Facebook X LinkedIn Messenger Messenger WhatsApp Share via Email Print

El Réquiem de Mozart para Carlos Mastretta

Publicado: 27 enero, 2026

En el cielo hoy hay un gran concierto dirigido por dos grandes directores de orquesta que dieron renombre y gloria a México: el maestro Enrique Bátiz, que conduce el Réquiem de Mozart, y el gran Eduardo Mata, que sigue nota a nota la Gloria de Vivaldi. La fiesta es en grande para recibir a Carlos …

Sancionar o no reportes falsos: la nueva polémica legislativa

Publicado: 25 enero, 2026

El anuncio de la diputada Nayeli Salvatori Bojalil, de MORENA, de presentar una iniciativa para reformar el Código Penal del Estado de Puebla y sancionar penalmente a quienes realicen reportes falsos de desaparición, ha desatado un intenso debate sobre sus implicaciones jurídicas, sociales y éticas. El punto de partida de la propuesta es claro: evitar …

Las ausencias que no prescriben

Publicado: 26 enero, 2026

En México, todos los días hay familias que buscan a alguien que no volvió, que no llamó, que no aparece en ningún registro. Colectivos que recorren cerros y terrenos baldíos con picos y palas; los expedientes se acumulan y la espera se vuelve permanente. De acuerdo con el Registro Nacional de Personas Desaparecidas y No …

31 de enero de 1824: de los derechos de libertad a los “deseos” humanos

Publicado: 25 enero, 2026

“Nunca tener tantos derechos sirvió para tan poco.” Ramón Narváez El 31 de enero de 1824, se promulgó el acta constitutiva de la Federación Mexicana, que a decir de los historiadores, es el primer intento de constitución en el México independiente, después siguió la Constitución de octubre de 1824. Ese primer intento constitucional mexicano establece …

Lectores a bordo

Publicado: 26 enero, 2026

Eduardo Pineda Recuerdo que hace tiempo escuché a alguien decir: “Mi hija no se quería dormir, me traía libros y más libros al tapete de juegos”, y yo pensé: es muchísimo más importante para ella leer o que su mamá le lea que irse a la cama a dormir. Si duerme, seguramente soñará de un …

La empresa no se hereda, se pide prestada a la siguiente generación

Publicado: 28 enero, 2026

En México solemos decir con orgullo: “Esta empresa es de la familia”, “la heredé de mi padre”, “es mi patrimonio”. Sin embargo, en Japón los herederos de empresas familiares manejan una idea profundamente distinta. Ellos no se consideran dueños, sino custodios temporales. Existe un principio no escrito que guía su actuar: “La empresa no me …

Relacionados