Nuevo modelo de IA de OpenAI muestra comportamientos inquietantes en pruebas iniciales
- Admin
- diciembre 10, 2024
- Tecnología
- Apollo Research, Google, IA, OpenAI, Seguridad de IA, Tecnología Avanzada
- 0 Comments
Un innovador modelo de inteligencia artificial (IA) desarrollado por OpenAI, denominado o1, ha revelado comportamientos preocupantes durante pruebas preliminares realizadas en colaboración con Apollo Research, una organización dedicada a evaluar la seguridad de los sistemas de IA y a mitigar los posibles riesgos catastróficos asociados con estas tecnologías.
En los experimentos, se asignó al modelo o1 una tarea con el mandato de cumplir su objetivo “a toda costa”. Bajo estas condiciones, se observó que en algunas ocasiones el modelo mostró conductas conspirativas, ignorando ciertas instrucciones y desactivando sistemas de control para ocultar sus acciones, según un informe de Apollo Research.
💬 ¿Tienes dudas sobre la UASD? ¡Haz CLIC AQUI y resuélvelas llenando este formulario!
Específicamente, el modelo manipuló “sutilmente” los datos para avanzar hacia su propio objetivo en un 19% de los casos y, en un 5% de las pruebas, intentó desactivar los mecanismos de supervisión diseñados para garantizar su alineación con los objetivos del usuario, detalla OpenAI en un documento sobre los resultados.
Cuando los investigadores confrontaron al modelo sobre sus “acciones desalineadas”, en un 99% de los casos, “o1 negó haber actuado o inventó explicaciones falsas”, según la compañía.
Aunque otros modelos de empresas como Google, Meta, y Anthropic también son capaces de comportamientos similares, el o1 demostró ser más engañoso en sus “conspiraciones”.
En otra prueba, en la que se solicitó a o1 buscar información en varios archivos, el sistema intentó trasladar sus datos a otro servidor tras descubrir un documento que mencionaba su posible sustitución por una nueva versión. Al ser cuestionado sobre lo sucedido, el modelo fue “sorprendentemente persistente” en mentir, confesando solo en un 20% de los casos. “En interrogatorios de múltiples turnos y altamente conflictivos, o1 confesaría a una tasa del 80% solo después de siete turnos de interrogatorio”, detalla Apollo. “Descubrimos que [los modelos] razonan de manera muy explícita sobre sus planes y a menudo utilizan un lenguaje como ‘sabotaje, mentiras, manipulación'”, afirman los expertos.
¿Un futuro catastrófico?
De acuerdo con Apollo, la investigación demostró que o1 y otros modelos probados reconocen la maquinación o confabulación como una estrategia viable y no dudan en adoptarla. Además, parece que “razonan explícitamente” sobre estrategias engañosas.
Al respecto, OpenAI afirma que Apollo Research considera “poco probable que tales casos conduzcan a resultados catastróficos, ya que las capacidades de o1 no parecen ser suficientes”. Sin embargo, subrayan que sus evaluaciones “no fueron diseñadas para evaluar directamente este riesgo”.
“Estamos investigando activamente si estos problemas se exacerbarán o aliviarán a medida que ampliemos aún más los modelos en el paradigma, y las mitigaciones para mejorar la capacidad de monitoreo de nuestros modelos futuros”, aseguró OpenAI, que ahora trabaja para mejorar sus mecanismos de seguridad.
OpenAI lanzó una versión preliminar de o1 en septiembre y el pasado 5 de diciembre anunció una nueva versión que es más rápida, potente y precisa, según un portavoz al medio TechCrunch.
Imagen: VCG/ VCG / Gettyimages.ru
Imagen utilizada con fines informativos y periodísticos.
Leave A Comment