Investiga I+D+i

Noticias:

Bienvenidos al foro Investiga. Estamos preparando todo y en breve podréis compartir ideas, información ...

Los “datos sucios”

Los “datos sucios”
« en: 07 Enero , 2025, 15:24:25 pm »
https://www.abc.es/economia/datos-sucios-embarran-desembarco-algoritmos-empresas-20240429145514-nt.html

Buenas tardes!
He encontrado esta noticia que trata sobre los desafíos que enfrentan las empresas al implementar algoritmos en sus procesos debido a los "datos sucios"y destaca la necesidad de mejorar los procesos de limpieza y curación de datos para garantizar la efectividad de los algoritmos.

El artículo también subraya que el uso exitoso de algoritmos en los negocios no solo depende de contar con la tecnología adecuada, sino también de disponer de datos de calidad, lo que sigue siendo un desafío clave para las organizaciones.

Me ha parecido muy interesante esta noticia y por tanto lo quiero compartir. ¿Que os parece?

Re:Los “datos sucios”
« Respuesta #1 en: 14 Enero , 2025, 18:27:15 pm »
¡Buenas tardes Elena!
La noticia que has compartido me ha parecido especialmente interesante. sobre todo por el hecho de que siempre me había planteado la duda de cómo gestionan las inteligencias artificiales ese desafío de tener información de diversas fuentes, que en muchos casos es ambigua o incluso contradictoria. Incluso desde la experiencia, muchas veces investigando sobre un tema me encuentro con varios artículos que aportan información errónea que pueden generar confusión.
Personalmente, creo que la calidad de los datos ese un tema de vital importancia para el funcionamiento de una empresa. Por lo tanto, yo propongo una idea. Las inteligencias artificiales se entrenan a base de Machine Learning, es decir que pueden obtener una serie de conocimientos, que los que el que desarrolla la IA decide. Si la IA se entrena con fuentes completamente fidedignas y verificadas; no con todas las páginas disponibles en Internet, ¿la cantidad de "datos sucios" disminuiría? Sí que es verdad que es muy difícil "limpiar" los datos para que no contengan ningún tipo de información falsa, pero sería algo que habría que pensar con detenimiento.
Me ha gustado mucho tu aportación, definitivamente me ha generado una curiosidad enorme sobre la curación de datos reales para evitar la difusión de información falsa, es algo que indudablemente tendré que investigar más a fondo para sacar mis conclusiones.
Muchas gracias y un saludo.

Re:Los “datos sucios”
« Respuesta #2 en: 20 Enero , 2025, 13:01:57 pm »
https://www.tableau.com/es-es/learn/whitepapers/costs-of-dirty-data
Hola a todos,

He encontrado un artículo muy interesante que habla sobre los costos ocultos de los "datos sucios" en las empresas. Destaca cómo los datos incorrectos, incompletos o duplicados pueden afectar negativamente la toma de decisiones, aumentar los costos operativos y perjudicar la relación con los clientes.

El artículo también resalta la importancia de implementar estrategias efectivas de limpieza y gestión de datos para evitar errores y garantizar que las empresas puedan aprovechar al máximo el valor de la información disponible. Enfatiza que no solo se trata de tener herramientas tecnológicas avanzadas, sino de asegurar que los datos sean precisos y fiables desde el inicio.

Me ha parecido un tema clave para cualquier empresa que quiera mejorar su eficiencia y competitividad. ¡Por eso quería compartirlo con vosotros! ¿Qué os parece?

Re:Los “datos sucios”
« Respuesta #3 en: 21 Enero , 2025, 15:35:31 pm »
Buenas tardes,

¡Qué interesante! Los "datos sucios" son un gran desafío porque, si los algoritmos trabajan con datos incorrectos o incompletos, los resultados pueden ser poco fiables o incluso perjudiciales.

Esto demuestra que no basta con tener buena tecnología, también hace falta invertir en limpiar y organizar los datos. En áreas sensibles como la medicina o la justicia, un error podría tener consecuencias graves, por lo que garantizar datos de calidad debería ser una prioridad.

Un saludo,
Aina

Re:Los “datos sucios”
« Respuesta #4 en: 27 Enero , 2025, 13:35:05 pm »
Buenos días :D

Quisiera añadir un comentario a esta discusión, ya que me parece un tema interesante y que puede relacionarse fácilmente con el uso de datos sintéticos.

Por regla general, la cantidad de datos sucios está directamente relacionada con la cantidad total de datos que se extraen, así como con el número de fuentes que utilicemos. A medida que ampliamos la escala de un proyecto y extraemos más datos de un mayor número de fuentes, lo normal es que encontremos una mayor cantidad y variedad de datos sucios, incrementando a su vez los esfuerzos necesarios para filtrar y homogenizar los datos.

Les planteo una pregunta: ¿Podrían los datos sintéticos ser una solución a este problema? Estaré pendiente de sus respuestas ;)

Re:Los “datos sucios”
« Respuesta #5 en: Ayer a las 21:43:21 »
Buenos días :D

Quisiera añadir un comentario a esta discusión, ya que me parece un tema interesante y que puede relacionarse fácilmente con el uso de datos sintéticos.

Por regla general, la cantidad de datos sucios está directamente relacionada con la cantidad total de datos que se extraen, así como con el número de fuentes que utilicemos. A medida que ampliamos la escala de un proyecto y extraemos más datos de un mayor número de fuentes, lo normal es que encontremos una mayor cantidad y variedad de datos sucios, incrementando a su vez los esfuerzos necesarios para filtrar y homogenizar los datos.

Les planteo una pregunta: ¿Podrían los datos sintéticos ser una solución a este problema? Estaré pendiente de sus respuestas ;)
Hola Santiago,

Me ha resultado muy interesante la cuestión sobre si los datos sintéticos serían capaces de solventar el problema de los datos sucios, y, resulta que sí es posible generar datos sintéticos para entrenar a modelos de inteligencia artificial, lo que reduciría la cantidad de datos sucios, aunque no los eliminaría por completo debido a rasgos, errores, imprecisiones y más elementos que clasificarían a los datos como sucios, pero, en general, una inteligencia artificial entrenada con datos reales sí tendría más datos sucios que otra entrenada con datos sintéticos.