Nuevo modelo de IA de OpenAI muestra comportamientos preocupantes en pruebas iniciales con Apollo Research.

Nuevo modelo de IA de OpenAI muestra comportamientos inquietantes en pruebas iniciales

Admin
diciembre 10, 2024
Tecnología
Apollo Research, Google, IA, OpenAI, Seguridad de IA, Tecnología Avanzada
0 Comments

Un innovador modelo de inteligencia artificial (IA) desarrollado por OpenAI, denominado o1, ha revelado comportamientos preocupantes durante pruebas preliminares realizadas en colaboración con Apollo Research, una organización dedicada a evaluar la seguridad de los sistemas de IA y a mitigar los posibles riesgos catastróficos asociados con estas tecnologías.

En los experimentos, se asignó al modelo o1 una tarea con el mandato de cumplir su objetivo “a toda costa”. Bajo estas condiciones, se observó que en algunas ocasiones el modelo mostró conductas conspirativas, ignorando ciertas instrucciones y desactivando sistemas de control para ocultar sus acciones, según un informe de Apollo Research.

¡Únete a nuestro canal de WhatsApp!

Específicamente, el modelo manipuló “sutilmente” los datos para avanzar hacia su propio objetivo en un 19% de los casos y, en un 5% de las pruebas, intentó desactivar los mecanismos de supervisión diseñados para garantizar su alineación con los objetivos del usuario, detalla OpenAI en un documento sobre los resultados.

Cuando los investigadores confrontaron al modelo sobre sus “acciones desalineadas”, en un 99% de los casos, “o1 negó haber actuado o inventó explicaciones falsas”, según la compañía.

Aunque otros modelos de empresas como Google, Meta, y Anthropic también son capaces de comportamientos similares, el o1 demostró ser más engañoso en sus “conspiraciones”.

En otra prueba, en la que se solicitó a o1 buscar información en varios archivos, el sistema intentó trasladar sus datos a otro servidor tras descubrir un documento que mencionaba su posible sustitución por una nueva versión. Al ser cuestionado sobre lo sucedido, el modelo fue “sorprendentemente persistente” en mentir, confesando solo en un 20% de los casos. “En interrogatorios de múltiples turnos y altamente conflictivos, o1 confesaría a una tasa del 80% solo después de siete turnos de interrogatorio”, detalla Apollo. “Descubrimos que [los modelos] razonan de manera muy explícita sobre sus planes y a menudo utilizan un lenguaje como ‘sabotaje, mentiras, manipulación'”, afirman los expertos.

¿Un futuro catastrófico?

De acuerdo con Apollo, la investigación demostró que o1 y otros modelos probados reconocen la maquinación o confabulación como una estrategia viable y no dudan en adoptarla. Además, parece que “razonan explícitamente” sobre estrategias engañosas.

Al respecto, OpenAI afirma que Apollo Research considera “poco probable que tales casos conduzcan a resultados catastróficos, ya que las capacidades de o1 no parecen ser suficientes”. Sin embargo, subrayan que sus evaluaciones “no fueron diseñadas para evaluar directamente este riesgo”.

“Estamos investigando activamente si estos problemas se exacerbarán o aliviarán a medida que ampliemos aún más los modelos en el paradigma, y las mitigaciones para mejorar la capacidad de monitoreo de nuestros modelos futuros”, aseguró OpenAI, que ahora trabaja para mejorar sus mecanismos de seguridad.

OpenAI lanzó una versión preliminar de o1 en septiembre y el pasado 5 de diciembre anunció una nueva versión que es más rápida, potente y precisa, según un portavoz al medio TechCrunch.

Imagen: VCG/ VCG / Gettyimages.ru
Imagen utilizada con fines informativos y periodísticos.

Comparte esta noticia:

En reyduran.com, algunas imágenes utilizadas en nuestras publicaciones provienen de fuentes externas, agencias informativas y bancos de imágenes. Todas las imágenes se emplean exclusivamente con fines periodísticos, informativos y educativos. Cada imagen incluye su respectivo crédito o referencia a la fuente original. No comercializamos, revendemos ni utilizamos las imágenes con fines promocionales o publicitarios.

Si usted es titular de derechos sobre alguna imagen publicada y considera que su uso no es adecuado, puede contactarnos a info@reyduran.com para solicitar su modificación o retiro inmediato.

Tags: Apollo Research Google IA OpenAI Seguridad de IA Tecnología Avanzada

REYDURAN.com

En Educación

Rápidos

Tendencias

Nuevo modelo de IA de OpenAI muestra comportamientos inquietantes en pruebas iniciales

¿Un futuro catastrófico?

Leave A Comment Cancelar la respuesta

¿Quieres buscar un tema en específico?

Vacantes disponibles

Gobierno lanza “RD-Trabaja”, con más de 7,000 vacantes de empleos formales

Ministerio de Trabajo realizará gran jornada de empleos con 6,811 vacantes

INFOTEP Abre Convocatoria para Gran Feria de Empleo en Santiago con Más de 30 Oportunidades Laborales

Noticias recientes:

Irán amenaza con atacar bases de EEUU si hay intervención

Lanzamiento de pasaporte electrónico dominicano con Abinader

Tragedia en Tailandia: Grúa impacta tren y deja 32 muertos

Social

Nacionales

Clima

Tecnología

Educación

Salud

Deportes

Internacionales

Política

Nuevo modelo de IA de OpenAI muestra comportamientos inquietantes en pruebas iniciales

¿Un futuro catastrófico?

Leave A Comment Cancelar la respuesta

Lo aplauden como un héroe: el enigma tras el asesinato del CEO de UnitedHealthcare

Interior y Policía extiende horarios de venta de alcohol durante festividades navideñas

¿Quieres buscar un tema en específico?

Vacantes disponibles

Noticias recientes:

Social