Investiga I+D+i

Noticias:

Puedes conocer mejor el Programa en www.programainvestiga.org

¿Se están agotando los datos para entrenar una IA?

¿Se están agotando los datos para entrenar una IA?
« en: 14 Enero , 2025, 18:39:22 pm »
¡Buenas tardes a todos!
Me gustaría plantearos una noticia especialmente reciente que me ha llamado la atención. (https://www.eleconomista.es/tecnologia/noticias/13167811/01/25/lo-que-elon-musk-afirma-sobre-el-pico-de-datos-de-la-inteligencia-artificial-hemos-llegado-al-limite.html)
Esta, destaca la opinion de Elon Musk, un empresario de renombre conocido por ser el fundador de muchas empresas tecnológicas, que opina que se están agotando los datos reales para entrenar modelos y propone recurrir a los datos sintéticos, que es justo el tema en el que se centra la temática del proyecto de este año. Sin embargo, me preocupa que si todas las Inteligencias Artificiales se entrenan con este tipo de datos, tendría repercusiones. Podría limitarse la originalidad de la inteligencia, intensificar las parcialidades en los resultados y, asimismo, deteriorar en general los sistemas de inteligencia artificial.
¿Qué os parece? ¿Se os ocurre alguna solución para estos problemas que planteo, tanto para que se agoten los datos reales, como para las consecuencias de los sintéticos?
Un saludo, Laura

Re:¿Se están agotando los datos para entrenar una IA?
« Respuesta #1 en: 15 Enero , 2025, 18:31:33 pm »

Buenas tardes Laura,
Me ha parecido muy interesante la noticia que has compartido, porque es verdad que los datos reales son muchísimos, pero limitados, y esto puede suponer un grave problema a la hora de llevar a cabo la “alimentación” de un algoritmo de IA, especialmente cuando no hay más.

Es esta la cuestión que plantea la noticia: como debido a que los algoritmos deben ser entrenados con una gran cantidad de datos, las empresas deben hacer todo lo posible para conseguirlos, ya que sin ellos la IA no es capaz de llevar a cabo ningún tipo de operación. A raíz de esto, se crea la cuestión de si se deberían utilizar datos reales o sintéticos, y es vital destacar que mientras los artificiales pueden ser utilizados para rellenar “huecos” en el sistema, los datos reales son imprescindibles para crear una base en el programa.

Sin embargo, el año pasado surgió la situación de datos reales agotados, ante la cual casi todas las grandes empresas tecnológicas han decidido adoptar una innovación reciente, que son los datos sintéticos. Como ya sabéis, estos son para ellos muy beneficiosos, pues son más baratos que los datos reales, son ilimitados, no comprometen la privacidad de los individuos y garantiza diversidad. No obstante, a pesar de este beneficioso tipo de datos, es imprescindible ser consciente de sus limitaciones, como que no llegan a ser 100% realistas ni precisos ni confiables, suponen una dificultad para capturar la complejidad de los datos del mundo real, y suponen un desafío a la hora de validarlos, que es un proceso fundamental para garantizar su veracidad y ausencia de sesgos en la maquina que los desarrolló.

En el articulo, el autor opina que el completo uso de datos sintéticos llegará a reducir la creatividad de los modelos de IA, y aumentará los riesgos y limitaciones de esta que mencioné previamente, dando lugar al derrumbe de estos en un futuro cercano.

En mi opinión, no creo que llegue a causar la caída de esta gran innovación que se ha estado elaborando durante años, sino que simplemente llegaremos a un punto donde la información que nos dé no sea de fiar, resultando a que paremos de utilizarla en nuestro día a día.

Para responder a tus preguntas, dos potenciales soluciones para mitigar el agotamiento de datos reales y, por lo tanto, las consecuencias que podrían derivar del uso de única y exclusivamente datos sintéticos, son:
1. Fomentar el uso de datos abiertos, o Open Data: Esto ayudaría a que - cuando sea posible -, una vez que las empresas, instituciones, universidades, etc. hayan terminado de sacar el mayor provecho de los datos que obtienen y almacenan, que estos datos públicos los compartan con otros para promover su reutilización.
2. Uso de Inteligencia Artificial: Se pueden utilizar algoritmos de IA para filtrar y seleccionar la información mas relevante, eliminando aquellos que no son necesarios. Estos sistemas también podrían gestionar su calidad, integridad y ciclo de vida de manera autónoma, haciendo que tengan una mayor vida y evitando la limitación completa de datos reales.

Para finalizar, querría preguntaros vuestra opinión en relación con lo que se menciona al final del artículo, lo cual mencioné antes.

Un saludo,
Noa

—————————————————————————————

Fuente que utilicé (aparte del artículo que nos proporcionó Laura): https://keymakr.com/blog/synthetic-data-definition-pros-and-cons/