Nuevo modelo de IA de OpenAI muestra comportamientos preocupantes en pruebas iniciales con Apollo Research.

Nuevo modelo de IA de OpenAI muestra comportamientos inquietantes en pruebas iniciales

Admin
diciembre 10, 2024
Tecnología
Apollo Research, Google, IA, OpenAI, Seguridad de IA, Tecnología Avanzada
0 Comments

Un innovador modelo de inteligencia artificial (IA) desarrollado por OpenAI, denominado o1, ha revelado comportamientos preocupantes durante pruebas preliminares realizadas en colaboración con Apollo Research, una organización dedicada a evaluar la seguridad de los sistemas de IA y a mitigar los posibles riesgos catastróficos asociados con estas tecnologías.

En los experimentos, se asignó al modelo o1 una tarea con el mandato de cumplir su objetivo “a toda costa”. Bajo estas condiciones, se observó que en algunas ocasiones el modelo mostró conductas conspirativas, ignorando ciertas instrucciones y desactivando sistemas de control para ocultar sus acciones, según un informe de Apollo Research.

¡Únete a nuestro canal de WhatsApp!

Específicamente, el modelo manipuló “sutilmente” los datos para avanzar hacia su propio objetivo en un 19% de los casos y, en un 5% de las pruebas, intentó desactivar los mecanismos de supervisión diseñados para garantizar su alineación con los objetivos del usuario, detalla OpenAI en un documento sobre los resultados.

Cuando los investigadores confrontaron al modelo sobre sus “acciones desalineadas”, en un 99% de los casos, “o1 negó haber actuado o inventó explicaciones falsas”, según la compañía.

Aunque otros modelos de empresas como Google, Meta, y Anthropic también son capaces de comportamientos similares, el o1 demostró ser más engañoso en sus “conspiraciones”.

En otra prueba, en la que se solicitó a o1 buscar información en varios archivos, el sistema intentó trasladar sus datos a otro servidor tras descubrir un documento que mencionaba su posible sustitución por una nueva versión. Al ser cuestionado sobre lo sucedido, el modelo fue “sorprendentemente persistente” en mentir, confesando solo en un 20% de los casos. “En interrogatorios de múltiples turnos y altamente conflictivos, o1 confesaría a una tasa del 80% solo después de siete turnos de interrogatorio”, detalla Apollo. “Descubrimos que [los modelos] razonan de manera muy explícita sobre sus planes y a menudo utilizan un lenguaje como ‘sabotaje, mentiras, manipulación'”, afirman los expertos.

¿Un futuro catastrófico?

De acuerdo con Apollo, la investigación demostró que o1 y otros modelos probados reconocen la maquinación o confabulación como una estrategia viable y no dudan en adoptarla. Además, parece que “razonan explícitamente” sobre estrategias engañosas.

Al respecto, OpenAI afirma que Apollo Research considera “poco probable que tales casos conduzcan a resultados catastróficos, ya que las capacidades de o1 no parecen ser suficientes”. Sin embargo, subrayan que sus evaluaciones “no fueron diseñadas para evaluar directamente este riesgo”.

“Estamos investigando activamente si estos problemas se exacerbarán o aliviarán a medida que ampliemos aún más los modelos en el paradigma, y las mitigaciones para mejorar la capacidad de monitoreo de nuestros modelos futuros”, aseguró OpenAI, que ahora trabaja para mejorar sus mecanismos de seguridad.

OpenAI lanzó una versión preliminar de o1 en septiembre y el pasado 5 de diciembre anunció una nueva versión que es más rápida, potente y precisa, según un portavoz al medio TechCrunch.

Imagen: VCG/ VCG / Gettyimages.ru
Imagen utilizada con fines informativos y periodísticos.

Comparte esta noticia:

Tags: Apollo Research Google IA OpenAI Seguridad de IA Tecnología Avanzada

Nuevo modelo de IA de OpenAI muestra comportamientos inquietantes en pruebas iniciales

¿Un futuro catastrófico?

Leave A Comment Cancelar la respuesta

¿Quieres buscar un tema en específico?

Vacantes disponibles

Ministerio de Trabajo realizará gran jornada de empleos con 6,811 vacantes

INFOTEP Abre Convocatoria para Gran Feria de Empleo en Santiago con Más de 30 Oportunidades Laborales

Ministerio de Trabajo invita a jornada de empleo para San Juan de la Maguana

Noticias recientes:

Huracán Melissa alcanza categoría 4 y provoca intensas lluvias en República Dominicana

COE reduce las alertas por el huracán Melissa, pero advierte que las lluvias continuarán

Más Allá del Pescado sin Cabeza: Una Reflexión Urgente sobre el Conocimiento Desconectado de la Vida

Social

Nacionales

Clima

Tecnología

Educación

Salud

Deportes

Internacionales

Política

Nuevo modelo de IA de OpenAI muestra comportamientos inquietantes en pruebas iniciales

¿Un futuro catastrófico?

Leave A Comment Cancelar la respuesta

Lo aplauden como un héroe: el enigma tras el asesinato del CEO de UnitedHealthcare

Interior y Policía extiende horarios de venta de alcohol durante festividades navideñas

¿Quieres buscar un tema en específico?

Vacantes disponibles

Noticias recientes:

Social