41
Generación Sintética de datos / Re:[NUEVO RETO] Diferentes tipos de generación de datos
« Último mensaje por Daniel-2814-uYmd1Z en 30 Noviembre , 2024, 15:40:25 pm »Hola Marc, gracias por plantear este interesante reto sobre la generación sintética de datos clínicos. Voy a intentar responder a algunas de tus preguntas:
Entre los métodos de generación de datos sintéticos, el aprendizaje automático (machine learning) se considera uno de los mejores enfoques. Esto se debe a que, captura mejor los patrones y relaciones complejas en los datos.
Se basa directamente en los datos reales, haciendo menos suposiciones que los modelos más matemáticos. Es más fácil de automatizar y escalar a grandes conjuntos de datos.
Para generar datos sintéticos se pueden utilizar diversos mecanismos de IA/ML, como los modelos de árbol de decisión, modelos de síntesis basados en agrupaciones (clustering), modelos bayesianos ingenuos, redes neuronales generativas, como las GANs (Generative Adversarial Networks), y muchos más...
El uso de datos sintéticos puede generar sesgos si el conjunto de datos original ya contiene sesgos o si el modelo no captura adecuadamente toda la variabilidad de los datos reales1. Para mejorar esto se pueden tomar una gran variedad de medidas, como evaluar cuidadosamente la fidelidad, diversidad y capacidad de generalización de los datos sintéticos generados combinar datos sintéticos con datos reales del mundo durante el entrenamiento de modelos, utilizar técnicas de aumento de datos para incrementar la diversidad.
La generación de datos sintéticos puede es necesaria en casos como, cuando se dispone de conjuntos de datos limitados y se necesita aumentarlos,para proteger la privacidad de los pacientes al compartir o analizar datos sensibles, en el desarrollo y prueba de software médico antes de acceder a datos reales, para simular escenarios raros o poco frecuentes en investigación médica.
Sin embargo, puede ser innecesario o contraproducente cuando ya se dispone de suficientes datos reales de alta calidad, ya que, los datos sintéticos no logran capturar adecuadamente la complejidad de los datos reales.
Para más información sobre este tema, recomiendo consultar recursos como el blog de Globant sobre generación de datos sintéticos en salud y el informe de Syntho sobre datos sintéticos en atención sanitaria.
¡Espero que os haya servido!
Entre los métodos de generación de datos sintéticos, el aprendizaje automático (machine learning) se considera uno de los mejores enfoques. Esto se debe a que, captura mejor los patrones y relaciones complejas en los datos.
Se basa directamente en los datos reales, haciendo menos suposiciones que los modelos más matemáticos. Es más fácil de automatizar y escalar a grandes conjuntos de datos.
Para generar datos sintéticos se pueden utilizar diversos mecanismos de IA/ML, como los modelos de árbol de decisión, modelos de síntesis basados en agrupaciones (clustering), modelos bayesianos ingenuos, redes neuronales generativas, como las GANs (Generative Adversarial Networks), y muchos más...
El uso de datos sintéticos puede generar sesgos si el conjunto de datos original ya contiene sesgos o si el modelo no captura adecuadamente toda la variabilidad de los datos reales1. Para mejorar esto se pueden tomar una gran variedad de medidas, como evaluar cuidadosamente la fidelidad, diversidad y capacidad de generalización de los datos sintéticos generados combinar datos sintéticos con datos reales del mundo durante el entrenamiento de modelos, utilizar técnicas de aumento de datos para incrementar la diversidad.
La generación de datos sintéticos puede es necesaria en casos como, cuando se dispone de conjuntos de datos limitados y se necesita aumentarlos,para proteger la privacidad de los pacientes al compartir o analizar datos sensibles, en el desarrollo y prueba de software médico antes de acceder a datos reales, para simular escenarios raros o poco frecuentes en investigación médica.
Sin embargo, puede ser innecesario o contraproducente cuando ya se dispone de suficientes datos reales de alta calidad, ya que, los datos sintéticos no logran capturar adecuadamente la complejidad de los datos reales.
Para más información sobre este tema, recomiendo consultar recursos como el blog de Globant sobre generación de datos sintéticos en salud y el informe de Syntho sobre datos sintéticos en atención sanitaria.
¡Espero que os haya servido!