Buenas tardes Laura,
Me ha parecido muy interesante la noticia que has compartido, porque es verdad que los datos reales son muchísimos, pero limitados, y esto puede suponer un grave problema a la hora de llevar a cabo la “alimentación” de un algoritmo de IA, especialmente cuando no hay más.
Es esta la cuestión que plantea la noticia: como debido a que los algoritmos deben ser entrenados con una gran cantidad de datos, las empresas deben hacer todo lo posible para conseguirlos, ya que sin ellos la IA no es capaz de llevar a cabo ningún tipo de operación. A raíz de esto, se crea la cuestión de si se deberían utilizar datos reales o sintéticos, y es vital destacar que mientras los artificiales pueden ser utilizados para rellenar “huecos” en el sistema, los datos reales son imprescindibles para crear una base en el programa.
Sin embargo, el año pasado surgió la situación de datos reales agotados, ante la cual casi todas las grandes empresas tecnológicas han decidido adoptar una innovación reciente, que son los datos sintéticos. Como ya sabéis, estos son para ellos muy beneficiosos, pues son más baratos que los datos reales, son ilimitados, no comprometen la privacidad de los individuos y garantiza diversidad. No obstante, a pesar de este beneficioso tipo de datos, es imprescindible ser consciente de sus limitaciones, como que no llegan a ser 100% realistas ni precisos ni confiables, suponen una dificultad para capturar la complejidad de los datos del mundo real, y suponen un desafío a la hora de validarlos, que es un proceso fundamental para garantizar su veracidad y ausencia de sesgos en la maquina que los desarrolló.
En el articulo, el autor opina que el completo uso de datos sintéticos llegará a reducir la creatividad de los modelos de IA, y aumentará los riesgos y limitaciones de esta que mencioné previamente, dando lugar al derrumbe de estos en un futuro cercano.
En mi opinión, no creo que llegue a causar la caída de esta gran innovación que se ha estado elaborando durante años, sino que simplemente llegaremos a un punto donde la información que nos dé no sea de fiar, resultando a que paremos de utilizarla en nuestro día a día.
Para responder a tus preguntas, dos potenciales soluciones para mitigar el agotamiento de datos reales y, por lo tanto, las consecuencias que podrían derivar del uso de única y exclusivamente datos sintéticos, son:
1.
Fomentar el uso de datos abiertos, o Open Data: Esto ayudaría a que - cuando sea posible -, una vez que las empresas, instituciones, universidades, etc. hayan terminado de sacar el mayor provecho de los datos que obtienen y almacenan, que estos datos públicos los compartan con otros para promover su reutilización.
2.
Uso de Inteligencia Artificial: Se pueden utilizar algoritmos de IA para filtrar y seleccionar la información mas relevante, eliminando aquellos que no son necesarios. Estos sistemas también podrían gestionar su calidad, integridad y ciclo de vida de manera autónoma, haciendo que tengan una mayor vida y evitando la limitación completa de datos reales.
Para finalizar, querría preguntaros vuestra opinión en relación con lo que se menciona al final del artículo, lo cual mencioné antes.
Un saludo,
Noa
—————————————————————————————
Fuente que utilicé (aparte del artículo que nos proporcionó Laura):
https://keymakr.com/blog/synthetic-data-definition-pros-and-cons/