[NUEVO RETO] Diferentes tipos de generación de datos

VET-Marc · « **en:** 23 Noviembre , 2024, 23:16:41 pm »

[NUEVO RETO] [NUEVO RETO] [NUEVO RETO] [NUEVO RETO] [NUEVO RETO] [NUEVO RETO] [NUEVO RETO] [NUEVO RETO] [NUEVO RETO] [NUEVO RETO] [NUEVO RETO] [NUEVO RETO] [NUEVO RETO] [NUEVO RETO] [NUEVO RETO] [NUEVO RETO]
Hola compañer@s del foro,

Soy Marc Gomis y soy uno de los Veteranos de esta edición.

Me gustaría plantearos un pequeño reto con tal de dar un poco de actividad a nuestra sección en el foro, pues como ya sabréis, la participación en el foro es imprescindible para poder optar a la siguiente fase del programa.

Dicho esto; os propongo unas preguntas, a ver quién las puede contestar. También podéis generar debate y discusión entre vosotr@s.

De todos los tipos de métodos de generación de datos, ¿cuál consideráis que es el mejor y porque?
Qué tipo de redes neuronales o mecanismos de inteligencia artificial/machine learning se necesitan para general datos sintéticos
Creéis que el uso de datos generados sintéticamente puede generar sesgos y errores en la precisión de los resultados obtenidos? ¿Cómo podría mejorarse esto?
¿En qué casos puede ser necesario la generación de datos sintéticos? ¿Y en qué casos puede ser innecesario o hasta contraproducente?

No hace falta que deis respuesta a todas las preguntas, pero sí que os animo a intentar contestar una o dos y responder a las opiniones de vuestr@s compañer@s.

Un saludo,
Marc Gomis.

Mireia-4912-pnjr4Y · « **Respuesta #1 en:** 24 Noviembre , 2024, 18:46:01 pm »

¡He investigado un poco y os dejo algún link a webs interesantes, que pueden ayudar a responder las preguntas propuestas!

LINKS:
- https://www.questionpro.com/blog/es/generacion-de-datos-sinteticos/
- https://aws.amazon.com/es/what-is/neural-network/
- https://www.iic.uam.es/innovacion/inteligencia-artificial-responsable-sesgos-y-explicabilidad/
- https://www.aepd.es/prensa-y-comunicacion/blog/datos-sinteticos-y-proteccion-de-datos

¡SUERTE A TODOS!

Izan-5735-2zGb5Y · « **Respuesta #2 en:** 28 Noviembre , 2024, 17:02:41 pm »

Cita de: VET-Marc en 23 Noviembre , 2024, 23:16:41 pm

[NUEVO RETO] [NUEVO RETO] [NUEVO RETO] [NUEVO RETO] [NUEVO RETO] [NUEVO RETO] [NUEVO RETO] [NUEVO RETO] [NUEVO RETO] [NUEVO RETO] [NUEVO RETO] [NUEVO RETO] [NUEVO RETO] [NUEVO RETO] [NUEVO RETO] [NUEVO RETO]
Hola compañer@s del foro,

Soy Marc Gomis y soy uno de los Veteranos de esta edición.

Me gustaría plantearos un pequeño reto con tal de dar un poco de actividad a nuestra sección en el foro, pues como ya sabréis, la participación en el foro es imprescindible para poder optar a la siguiente fase del programa.

Dicho esto; os propongo unas preguntas, a ver quién las puede contestar. También podéis generar debate y discusión entre vosotr@s.

De todos los tipos de métodos de generación de datos, ¿Cuál consideráis que es el mejor y porque?
Qué tipo de redes neuronales o mecanismos de inteligencia artificial/machine learning se necesitan para general datos sintéticos
Creéis que el uso de datos generados sintéticamente puede generar sesgos y errores en la precisión de los resultados obtenidos? ¿Cómo podría mejorarse esto?
¿En qué casos puede ser necesario la generación de datos sintéticos? ¿Y en qué casos puede ser innecesario o hasta contraproducente?

No hace falta que deis respuesta a todas las preguntas, pero sí que os animo a intentar contestar una o dos y responder a las opiniones de vuestr@s compañer@s.

Un saludo,
Marc Gomis.

Buenos días a todos.

Me he estado informando un poco y tras varias pruebas y un rato de teoría creo tener algo con lo que debatir.
Comenzando por el principio, como es lógico, la técnica de generación de datos que personalmente considero la mejor, no sería el único uso de un modelo, sino la complementación de unos con otros. Me explico, el VAE, o el autocodificador de Valor Agregado Ecuatoriano tiene una gran potencia en cuanto a generación de datos sintéticos realistas, basados en resultados actualmente existentes, se refiere. Sin embargo, esta generación de datos se ve forzada por la agrupación de grandes bases de datos o recursos de los que poder obtener una simulación realista, de lo contrario este ensayo no muestra ciertamente datos que podrían replicarse, mas la media de los datos que obtiene. Por ello, y aquí entra el Boostrapping, con su memoria LTSM*; el cuál nos permite recoger todos estos datos y almacenarlos en una memoria de fácil y rápido acceso, para luego generar ruido digital** que nos permitirá sintetizar datos tanto de forma realista, como con un poco de "imaginación" (ya me entendéis 😉).

Prosiguiendo con el tema anterior y respondiendo a la próxima pregunta, veo óptimo el uso de modelos de inteligencia artificial del tipo Naive Bayes (conocido como "ingenuo"), basado en el teorema de Bayes, el cuál estatuye que la existencia o presencia de una característica o función, no determina la falta de la otra. Este modelo es bastante utilizado en muchos tipos de situaciones aleatorias, sobre todo en las que ciertos factores pueden no ser realmente predecibles.
Hay que tener en cuenta que todos estos datos, pueden ser correctos o pueden conllevar un riesgo determinado, ya que aún usando ruido digital que "aleatoriza" los resultados hasta el punto que nosotros decidamos, la aleatorización de nuestros dispositivos informáticos (dispositivos precisos y preparados para no equivocarse) sintetiza datos a partir de resultados obtenidos por nosotros y variables que proporcionamos y/o modificamos, lo que puede llevar a errores finales.

Ya por último, y concluyendo para los que hayáis llegado hasta aquí, la generación de datos puede no ser siempre la mejor solución para todos los problemas que se nos presentan. Pongo un caso personal como ejemplo.
A mi me gusta mucho la robótica, ya que termina siendo la "hermana gemela" de la informática, y en un proyecto que se me planteó en el que un robot debía constituir la tarea de limpiar una habitación completamente evitando obstáculos y mejorando su eficiencia, lo primero que me vino a la mente fueron algunos modelos de procesamiento de datos, basados en flujos de trabajo neuronales, ideales para microprocesadores pequeños como Arduino, una de las placas de micro procesamiento más utilizadas en robótica. Sin embargo, y aún pudiendo ser esta una buena opción, era mucho más fácil (en temas técnicos) y muchos más rápido (en temas de procesamiento y coste de tiempo) un circuito, junto con un programa que cumplía con esta función exactamente como se necesitaba. De forma similar, y de igual forma con un proyecto personal, el código encargado de gestionar la estabilización de un avión en cualquier circunstancia, era más sencilla de hacer, más rápida y más barata, con un programa auto reactivo, que con inteligencia artificial.
Por tanto, y ahora ya sí, terminando; siempre va a depender de la situación y la solución que queramos obtener, pero comúnmente y en la situación actual en la que la IA aún está en desarrollo prematuro, es mejor basarse en soluciones que se adecuen a nuestros requisitos, antes de pensar en las redes neuronales como solución. Porque por si completar una no fuese difícil, luego conlleva un entrenamiento de miles y cientos de miles de datos como mínimo, más el tiempo de su procesamiento y análisis.

Un saludo, y espero haber aportado algo útil hoy.

--- Información de interés: ---
* Memoria larga a corto plazo (LTSM):
** Ruido (digital): Con ruido digital nos referimos a la generación, en un plano digital, de puntos encontrados entre el blanco y el negro (admitiendo toda la gama de colores intermedia) que luego se traduce a números en los cuales el negro es 0 y el blanco es 1, teniendo como decimales los colores intermedios. ¿Con que fin? Estos valores se utilizan para obtener resultados aleatorios, ya sea para un post-procesamiento de datos o simplemente vectores de aleatorización.

Arduino: https://es.wikipedia.org/wiki/Arduino
Microprocesadores: https://es.wikipedia.org/wiki/Microprocesador

Daniel-2814-uYmd1Z · « **Respuesta #3 en:** 30 Noviembre , 2024, 15:40:25 pm »

¡Hola a tod@s!Hola Marc, gracias por plantear este interesante reto sobre la generación sintética de datos clínicos. Voy a intentar responder a algunas de tus preguntas:

Entre los métodos de generación de datos sintéticos, el aprendizaje automático (machine learning) se considera uno de los mejores enfoques. Esto se debe a que, captura mejor los patrones y relaciones complejas en los datos.
Se basa directamente en los datos reales, haciendo menos suposiciones que los modelos más matemáticos. Es más fácil de automatizar y escalar a grandes conjuntos de datos.

Para generar datos sintéticos se pueden utilizar diversos mecanismos de IA/ML, como los modelos de árbol de decisión, modelos de síntesis basados en agrupaciones (clustering), modelos bayesianos ingenuos, redes neuronales generativas, como las GANs (Generative Adversarial Networks), y muchos más...

El uso de datos sintéticos puede generar sesgos si el conjunto de datos original ya contiene sesgos o si el modelo no captura adecuadamente toda la variabilidad de los datos reales1. Para mejorar esto se pueden tomar una gran variedad de medidas, como evaluar cuidadosamente la fidelidad, diversidad y capacidad de generalización de los datos sintéticos generados combinar datos sintéticos con datos reales del mundo durante el entrenamiento de modelos, utilizar técnicas de aumento de datos para incrementar la diversidad.

La generación de datos sintéticos puede es necesaria en casos como, cuando se dispone de conjuntos de datos limitados y se necesita aumentarlos,para proteger la privacidad de los pacientes al compartir o analizar datos sensibles, en el desarrollo y prueba de software médico antes de acceder a datos reales, para simular escenarios raros o poco frecuentes en investigación médica.

Sin embargo, puede ser innecesario o contraproducente cuando ya se dispone de suficientes datos reales de alta calidad, ya que, los datos sintéticos no logran capturar adecuadamente la complejidad de los datos reales.

Para más información sobre este tema, recomiendo consultar recursos como el blog de Globant sobre generación de datos sintéticos en salud y el informe de Syntho sobre datos sintéticos en atención sanitaria.

¡Espero que os haya servido!

VET-Marc · « **Respuesta #4 en:** 02 Diciembre , 2024, 18:11:09 pm »

Muchas gracias Mireia, Izan y Daniel por vuestras aportaciones.
Me las he leído con mucha atención, ¡y me parecen muy correctas y completas!

Si alguien más se anima a contestar a las preguntas planteadas o a debatir con las respuestas de alguno de sus compañeros, que no dude en hacerlo.

Saludos,
Marc Gomis.

Linlin-1895-k67c7W · « **Respuesta #5 en:** 02 Diciembre , 2024, 20:21:04 pm »

Buenas tardes a todos,
hoy solo podre contestar una de las preguntas, pero respondere las otras preguntas en otro momento.
( 1 ) De todos los tipos de métodos de generación de datos, ¿Cuál consideráis que es el mejor y porque?
El mejor método que yo considero son las GAN ( Generative Adversarial Networks / Redes Generativas Adversarias ), porque las GAN son 2 redes neuronales, un generador y un discriminador, que se contradicen. El generador genera datos sintéticos, es decir, que son datos generados por algoritmos e imitan los datos del mundo real. Y un discriminador diferencia entre los datos reales y los sintéticos. Así se generan datos artificiales convincentes. Entonces así podríamos sacar más información confiable.
Las pagínas web:https://www.mapfre.com/actualidad/innovacion/modelos-generativos-generacion-datos-sinteticos/
https://www.questionpro.com/blog/es/generacion-de-datos-sinteticos/
Un saludo y buena suerte a todos.

Miguel-2814-9mcM2R · « **Respuesta #6 en:** 02 Diciembre , 2024, 22:35:19 pm »

Hola a tod@s,

Gracias, Marc, por lanzar este reto tan interesante. Tras reflexionar y leer las aportaciones de mis compañer@s, aquí dejo mi opinión sobre algunas de las preguntas que planteaste, apoyándome en lo que han comentado.

1. De todos los tipos de métodos de generación de datos, ¿cuál consideráis que es el mejor y porque?
Personalmente, creo que las Redes Generativas Adversariales (GANs) son una de las mejores herramientas para generar datos sintéticos, sobre todo porque son capaces de crear datos que imitan fielmente la realidad. Esto es especialmente útil en áreas como la salud, donde la precisión es clave. Como mencionó Linlin, el generador crea datos sintéticos mientras que el discriminador evalúa su realismo, lo que permite afinar la calidad de los datos generados. Aun así, considero que su complejidad puede ser una desventaja en proyectos donde se necesiten soluciones rápidas o menos costosas.

2. Creéis que el uso de datos generados sintéticamente puede generar sesgos y errores en la precisión de los resultados obtenidos? ¿Cómo podría mejorarse esto Sí, este es un riesgo real, y estoy de acuerdo con Daniel en que el sesgo puede aparecer si los datos originales ya contienen errores o desigualdades. Sin embargo, creo que este problema puede mitigarse si se combinan datos sintéticos con datos reales y se evalúa constantemente la diversidad y calidad del conjunto de datos. Esto garantizaría que los modelos no amplifiquen errores, algo esencial en ámbitos como la medicina, donde los resultados tienen un impacto directo en las personas.

3. ¿En qué casos puede ser necesario la generación de datos sintéticos? ¿Y en qué casos puede ser innecesario o hasta contraproducente?
En mi opinión, los datos sintéticos son muy útiles cuando faltan datos reales, por ejemplo, en enfermedades raras o para proteger la privacidad de los pacientes, como mencionó Izan. Sin embargo, creo que no siempre son necesarios. Si ya contamos con suficientes datos reales de calidad, podría ser más eficiente usarlos directamente. Un mal uso de datos sintéticos podría incluso llevar a resultados menos precisos o a un aumento de los costes de desarrollo.

En conclusión, la generación de datos sintéticos tiene un potencial enorme, pero debemos usarla con cautela, porque no es una solución para todo, y debemos analizar bien cuándo es realmente necesaria y cuál es el método más adecuado para cada caso.

Espero que esta reflexión aporte algo útil al debate. ¡Espero vuestras opiniones y más ideas!

Un saludo,
Miguel.

Pau-4912-PaUF6G · « **Respuesta #7 en:** 03 Diciembre , 2024, 15:35:04 pm »

1. ¿Cuál consideráis que es el mejor método de generación de datos y por qué?
Yo creo que los Generative Adversarial Networks (GANs) son muy buenos para generar datos sintéticos. Estas redes tienen dos partes que "compiten" entre sí: una crea datos y la otra los evalúa. Esto hace que los datos generados sean muy realistas, especialmente en imágenes.

2. ¿Qué tipo de redes neuronales o mecanismos de IA/machine learning se necesitan para generar datos sintéticos?
Las GANs son una de las mejores opciones, pero también se pueden usar Autoencoders Variacionales (VAEs). Estos también sirven para generar datos, pero a veces son más fáciles de entrenar que las GANs.

3. ¿Creéis que el uso de datos generados sintéticamente puede generar sesgos y errores en los resultados obtenidos? ¿Cómo podría mejorarse esto?
Sí, si los datos originales tienen algún tipo de sesgo (por ejemplo, si solo se incluyen ciertos tipos de personas), los datos generados también lo tendrán. Para evitarlo, se debe asegurar que los datos de entrada sean lo más diversos y equilibrados posible.

4. ¿En qué casos puede ser necesario generar datos sintéticos? ¿Y en qué casos puede ser innecesario o contraproducente?
Generar datos sintéticos es útil cuando no se tienen suficientes datos reales, por ejemplo, en investigación médica o en coches autónomos. Sin embargo, puede ser innecesario si los datos reales están disponibles y son suficientes, o si los datos sintéticos no representan bien la realidad.
¡Espero que estas respuestas ayuden al debate!
Un saludo,
Pau Campmany Fernández

Linlin-1895-k67c7W · « **Respuesta #8 en:** 04 Diciembre , 2024, 14:20:20 pm »

Hola, buenas tardes a todos,
hoy responderé la segunda pregunta: ( 2 ) Qué tipo de redes neuronales o mecanismos de IA/machine learning se necesitan para generar datos sintéticos.
Las GAN son los métodos que se necesitan para que se generen datos sintéticos, porque tiene 2 redes neuronales, un generador y un discriminador. El funcionamiento de estas redes están explicadas en mi anterior mensaje. Y como dije anteriormente las GAN hacen datos sintéticos muy convincentes y es uno de los métodos más utilizados.
Un saludo.

Lorenzo-4912-c12v8G · « **Respuesta #9 en:** 05 Diciembre , 2024, 21:24:39 pm »

Hola Marc, me ha parecido muy interesante esto que comentabas anteriormente y he decidido investigar sobre ello.

Creo que el mejor método de generación de datos depende del contexto, pero las simulaciones son muy útiles porque permiten recrear situaciones complejas sin usar recursos reales. Para generar datos sintéticos, las GANs son una opción muy potente, aunque también se usan autoencoders y reinforcement learning según el tipo de datos.

Sin embargo, los datos sintéticos pueden introducir sesgos si no se generan correctamente, especialmente si el modelo de entrenamiento ya está sesgado. Para evitarlo, es clave usar datos variados y validar los resultados con datos reales.

Son necesarios cuando hay pocos datos reales o es peligroso obtenerlos, como en estudios médicos o simulaciones de desastres. Pero si ya tienes suficientes datos reales, podrían ser innecesarios o incluso contraproducentes. ¿Qué opináis los demás?

Andrs-8371-dRUX2F · « **Respuesta #10 en:** 07 Diciembre , 2024, 14:37:56 pm »

¡Buenas tardes!

He estado investigando sobre los tipos de generación sintética de datos, y me he topado con este artículo sobre el cual me gustaría hablar: https://blog.orange.es/empresas/datos-sinteticos-que-son-para-que-se-utilizan/

Me gusta bastante como en este artículo tratan los datos sintéticos como "una gran revolución"... Y es que, así es como los definen.

También se tratan temas como las diferentes técnicas: "Modelado estadístico: Se utilizan modelos matemáticos para crear datos que sigan las mismas distribuciones de probabilidad que los datos reales.
Aprendizaje automático: Algoritmos de aprendizaje automático se entrenan con datos reales para aprender las relaciones entre las variables y luego generar nuevos datos que sean consistentes con esas relaciones.
Simulación por computadora: Se crean simulaciones de escenarios del mundo real para generar datos que reflejen el comportamiento de esos escenarios."

También habla sobre las ventajas y riesgos que esto conlleva.

Os recomiendo leer este artículo detenidamente, ya que me ha parecido bastante interesante, me gustaría saber cual es vuestra opinión de todo esto...

Un saludo,
Andrés

Yigang-4912-zac51E · « **Respuesta #11 en:** 10 Diciembre , 2024, 15:52:41 pm »

⟪Redes Generativas Adversarias⟫⟪Redes Generativas Adversarias⟫⟪Redes Generativas Adversarias⟫⟪Redes Generativas Adversarias⟫⟪Redes Generativas Adversarias⟫⟪Redes Generativas Adversarias⟫⟪Redes Generativas Adversarias⟫⟪Redes Generativas Adversarias⟫⟪Redes Generativas Adversarias⟫⟪Redes Generativas Adversarias⟫⟪Redes Generativas Adversarias⟫⟪Redes Generativas Adversarias⟫⟪Redes Generativas Adversarias⟫⟪Redes Generativas Adversarias⟫⟪Redes Generativas Adversarias⟫⟪Redes Generativas Adversarias⟫⟪Redes Generativas Adversarias⟫⟪Redes Generativas Adversarias⟫
https://qa-release.questionpro.com/blog/es/modelos-generativos/

Las Redes Generativas Adversarias (GANs) son una fuerte clase de modelos generativos. Están compuestas por dos redes neuronales: un generador y un discriminador.

-Generador: El generador crea muestras de datos sintéticos que se asemejan de cerca a los datos reales. Produce muestras de datos utilizando ruido aleatorio como entrada. Inicialmente, su salida es inútil e impredecible.
-Discriminador: El discriminador distingue entre datos reales y los generados por el generador. Se utiliza un conjunto de muestras reales para entrenarlo.

Ventajas para la generación de datos sintéticos:

-Muestras de alta calidad: Las GANs crean muestras de datos realistas y de alta calidad, lo que puede ser esencial en diversas aplicaciones.
-Diversidad: Pueden generar una amplia variedad de puntos de datos que se asemejan estrechamente a la distribución subyacente de los datos.
-Manejo de la complejidad: Las GANs pueden producir tipos de datos complejos, como fotos, películas y objetos en 3D.
-Control fino: Las GANs condicionales permiten ejercer un control detallado sobre las propiedades de los datos generados.

Desventajas para la generación de datos sintéticos:

-Desafíos de entrenamiento: Las GANs pueden ser difíciles de entrenar y pueden sufrir problemas como el colapso del modo, en el que se centran en crear un subconjunto estrecho de datos.
-Complejidad del espacio latente: Debido a que las GANs carecen de un espacio latente claramente interpretable, es más difícil modificar los datos generados.
-Salidas ruidosas: En las etapas iniciales de entrenamiento, las muestras generadas pueden contener errores y ruido.
-Requisitos computacionales: El entrenamiento de GANs puede ser tecnológica y consume mucho tiempo.

Yigang-4912-zac51E · « **Respuesta #12 en:** 10 Diciembre , 2024, 15:56:36 pm »

⟪Codificadores automáticos variacionales⟫⟪Codificadores automáticos variacionales⟫⟪Codificadores automáticos variacionales⟫⟪Codificadores automáticos variacionales⟫⟪Codificadores automáticos variacionales⟫⟪Codificadores automáticos variacionales⟫⟪Codificadores automáticos variacionales⟫⟪Codificadores automáticos variacionales⟫⟪Codificadores automáticos variacionales⟫⟪Codificadores automáticos variacionales⟫
https://qa-release.questionpro.com/blog/es/modelos-generativos/

Los codificadores automáticos variacionales (VAEs) son modelos generativos probabilísticos que se centran en aprender la distribución de probabilidad subyacente de los datos. Su objetivo es replicar la distribución de probabilidad subyacente de los datos en el espacio latente.

Codificador: Los VAEs tienen una red codificadora que convierte los datos reales en el espacio latente. Este espacio latente es una representación organizada y comprimida de los datos.
Decodificador: La red decodificadora utiliza los puntos en el espacio latente para generar muestras de datos.

Ventajas para la generación de datos sintéticos

-Espacio latente estructurado: Los VAEs proporcionan un espacio latente organizado e interpretable, que permite un procesamiento y producción de datos sencillos.
-Salidas probabilísticas: Los VAEs crean salidas probabilísticas, lo que le permite evaluar la incertidumbre en los datos generados.
-Imputación de datos: Los VAEs son útiles para tareas que implican la imputación de datos, como completar valores faltantes.
-Estabilidad: En comparación con las GANs, los VAEs son más estables durante el entrenamiento.

Desventajas para la generación de datos sintéticos

-Salidas difusas: En comparación con los datos sintéticos generados por GANs, los datos generados por VAEs pueden parecer menos nítidos y realistas.
-Diversidad limitada: Los VAEs pueden tener dificultades para capturar toda la diversidad de conjuntos de datos complicados debido a su diversidad limitada.
-Entrenamiento complejo: Debido a la modelización probabilística, los VAEs requieren un enfoque de entrenamiento más sofisticado.
-No universalmente adecuados: Pueden no ser la elección ideal para crear tipos de datos específicos, como fotografías de alta resolución, porque no son universalmente adecuados.

Yigang-4912-zac51E · « **Respuesta #13 en:** 10 Diciembre , 2024, 15:58:50 pm »

⟪Modelos autorregresivos⟫⟪Modelos autorregresivos⟫⟪Modelos autorregresivos⟫⟪Modelos autorregresivos⟫⟪Modelos autorregresivos⟫⟪Modelos autorregresivos⟫⟪Modelos autorregresivos⟫⟪Modelos autorregresivos⟫⟪Modelos autorregresivos⟫⟪Modelos autorregresivos⟫⟪Modelos autorregresivos⟫Los modelos autorregresivos son un tipo de modelo generativo especializado en la producción de secuencias y datos estructurados. Estos modelos generan predicciones paso a paso basadas en datos previos. Se utilizan con frecuencia para generar secuencias de datos, como texto, series temporales o audio.

Predicción secuencial: Los modelos autorregresivos generan datos de manera secuencial, con cada paso prediciendo el siguiente elemento en la serie. En la creación de texto, el modelo predice la siguiente palabra en función de las palabras que la preceden.
Modelado de dependencias: Estos modelos capturan dependencias entre elementos de la secuencia, lo que los hace útiles para datos con una estructura temporal o secuencial clara.

Ventajas para la generación de datos sintéticos

-Generación de datos secuenciales: Los modelos autorregresivos se desempeñan bien en la generación de datos secuenciales. ----Sobresalen en la producción de texto, donde cada palabra se predice a partir de las anteriores.
-Proceso Interpretable: La autorregresión es altamente interpretable. Puedes ver claramente cómo se deriva cada punto de datos a partir de los datos anteriores.
-Modelado de lenguaje de última generación: Los modelos autorregresivos basados en transformadores, como GPT-3 y GPT-4, tienen un buen desempeño en la comprensión y generación de lenguaje natural.
-Generación condicional: Estos modelos pueden generar discurso y recomendar contenido en función de ciertas entradas.

Desventajas para la generación de datos sintéticos

-Paralelización Ineficiente: Los modelos autorregresivos son secuenciales, lo que ralentiza la generación.
-Contexto Limitado: Cada punto de datos se genera a partir de una ventana fija de datos anteriores, lo que puede resultar en la pérdida de dependencias a largo plazo.
-Limitaciones en la longitud de los datos: La desaparición de gradientes y los límites de cómputo dificultan la generación de secuencias largas.
-Dependencias de los datos de entrenamiento: Los modelos autorregresivos requieren una gran cantidad de datos de entrenamiento para generalizar, lo que puede no estar disponible en contextos especializados.

Linlin-1895-k67c7W · « **Respuesta #14 en:** 29 Diciembre , 2024, 10:45:39 am »

Buenos días,
Hoy responderé las últimas preguntas del reto:( 3 ) ¿Creéis que el uso de datos generados sintéticamente puede generar sesgos y errores en los resultados obtenidos? ¿Cómo podría mejorarse esto?
Si, pero los datos sintéticos normalmente son muy realistas, por ejemplo las GAN. Como dije en mis anteriores respuestas tiene 2 redes neuronales que generan datos muy realistas, es decir, que tienen pocos sesgos y/o errores. Podríamos mejorarlo en el procesamiento de datos, podríamos detectar y eliminar los datos sesgados antes de introducirlo a las GAN.
( 4 ) ¿En qué casos puede ser necesario generar datos sintéticos? ¿Y en qué casos puede ser innecesario o contraproducente?
Los datos sintéticos son necesarios en casos donde la disponibilidad de los datos reales son limitados o se requiere privacidad de las personas involucradas, es decir, que acelera la investigación y fomenta la colaboración, al tiempo que mantiene integridad y privacidad. Por ejemplo, los casos que tienen que ver con la salud, finanzas, experimentos científicos y etc. Entonces en los casos donde hay disponibilidad de los datos reales suficientes no hace falta generar datos sintéticos, por ejemplo: en casos de traducción.
Un saludo.

Noticias:

[NUEVO RETO] Diferentes tipos de generación de datos

VET-Marc

[NUEVO RETO] Diferentes tipos de generación de datos

Mireia-4912-pnjr4Y

Re:[NUEVO RETO] Diferentes tipos de generación de datos

Izan-5735-2zGb5Y

Re:[NUEVO RETO] Diferentes tipos de generación de datos

Daniel-2814-uYmd1Z

Re:[NUEVO RETO] Diferentes tipos de generación de datos

VET-Marc

Re:[NUEVO RETO] Diferentes tipos de generación de datos

Linlin-1895-k67c7W

Re:[NUEVO RETO] Diferentes tipos de generación de datos

Miguel-2814-9mcM2R

Re:[NUEVO RETO] Diferentes tipos de generación de datos

Pau-4912-PaUF6G

Re:[NUEVO RETO] Diferentes tipos de generación de datos

Linlin-1895-k67c7W

Re:[NUEVO RETO] Diferentes tipos de generación de datos

Lorenzo-4912-c12v8G

Re:[NUEVO RETO] Diferentes tipos de generación de datos

Andrs-8371-dRUX2F

Re:[NUEVO RETO] Diferentes tipos de generación de datos

Yigang-4912-zac51E

Re:[NUEVO RETO] Diferentes tipos de generación de datos

Yigang-4912-zac51E

Re:[NUEVO RETO] Diferentes tipos de generación de datos

Yigang-4912-zac51E

Re:[NUEVO RETO] Diferentes tipos de generación de datos

Linlin-1895-k67c7W

Re:[NUEVO RETO] Diferentes tipos de generación de datos