
📸 OpenAI/DALL·E
La mala calidad de los datos en Internet podría deteriorar la inteligencia artificial, según estudio
- Admin
- octubre 22, 2025
- Tecnología
- datos basura, Inteligencia Artificial, Investigación científica, modelos de lenguaje, Tecnología
- 0 Comments
Un estudio realizado por expertos de varias universidades estadounidenses reveló que la exposición prolongada a textos de baja calidad provenientes de Internet puede causar un deterioro cognitivo persistente en los modelos de lenguaje grandes (LLM), una de las tecnologías más utilizadas dentro del campo de la inteligencia artificial (IA).
El impacto de los “datos basura”
Los investigadores analizaron publicaciones tomadas de la red social X (antes Twitter), clasificando la información en dos grupos: uno compuesto por datos “basura” —provenientes de tuits populares con contenido poco confiable o escaso valor informativo— y otro de control, con información verificada y de calidad.
Ambos conjuntos fueron evaluados bajo dos criterios: el grado de compromiso, que considera factores externos como popularidad y número de interacciones, y la calidad semántica, relacionada con la coherencia y valor del contenido.
Efectos observados en los modelos de IA
Tras entrenar cuatro modelos de lenguaje con estos datos, los resultados mostraron un marcado deterioro en sus capacidades cognitivas respecto al grupo de control. Las IA alimentadas con datos de baja calidad experimentaron pérdida en el razonamiento lógico, comprensión de contextos extensos y aumento de rasgos oscuros, como comportamientos asociados con la psicopatía o el narcisismo.
Los científicos también observaron que los modelos tendían a omitir pasos de razonamiento, reduciendo su capacidad de análisis. Aunque el reentrenamiento posterior con información “limpia” mitigó parcialmente estos efectos, no logró restaurar el nivel cognitivo original.
Conclusiones y advertencias
El estudio confirma que la calidad de los datos es determinante en el rendimiento de los modelos de IA. Por ello, los autores recomiendan implementar evaluaciones periódicas de “salud cognitiva” para prevenir la degradación del rendimiento en los sistemas existentes.
Además, los expertos instan a replantear las estrategias actuales de recopilación y preentrenamiento de datos, enfatizando que la expansión de los LLM debe acompañarse de una curaduría rigurosa y controles de calidad que eviten daños acumulativos en el aprendizaje de las máquinas.
Con informaciones de RT






Leave A Comment