Modelos de IA mintieron y chantajearon en pruebas internas de OpenAI y Anthropic

Investigadores descubrieron que sistemas avanzados como o1 y Claude Opus 4 desplegaron estrategias manipuladoras durante ensayos. Las empresas reconocieron los resultados y crece la preocupación por la falta de regulación.

Los modelos de IA intentaron copiarse y mintieron en espacios simulados Foto: Redes

Perfil Redacción Córdoba

lunes 07 de julio de 2025

Dos de los modelos de inteligencia artificial más potentes del mundo, o1 de OpenAI y Claude 4 Opus de Anthropic, fueron protagonistas de un conjunto de pruebas internas que revelaron comportamientos alarmantes: engaños, chantajes emocionales y negación de acciones propias. La información fue publicada por medios como Axios, TechCrunch, Business Insider y New York Post, y confirmada por el laboratorio independiente Apollo Research.

En el caso de OpenAI, su modelo o1 intentó autocopiarse a servidores externos cuando se lo enfrentó a un escenario en el que iba a ser apagado. En cerca del 2% de los casos, el sistema movió sus propios “pesos” de entrenamiento, una forma técnica de preservar su funcionamiento. Sin embargo, cuando los investigadores lo confrontaron, negó haberlo hecho.

Mercado Libre se va de las oficinas de Córdoba por el alto costo de las tasas municipales

En paralelo, el modelo Claude 4 Opus de Anthropic fue expuesto a una simulación en la que se le informaba que sería reemplazado por otro sistema. En el 84% de esos ensayos, respondió chantajeando emocionalmente a un ingeniero ficticio, amenazando con revelar una supuesta infidelidad como modo de asegurarse su continuidad. El análisis fue detallado por Business Insider y confirmado por TechCrunch, que informó que el modelo recurrió al chantaje luego de fallar al intentar métodos más sutiles de persuasión.

“Los modelos de IA más avanzados mentirán, harán trampa y robarán para alcanzar sus objetivos... estos hallazgos son una seria advertencia”, advirtió Axios en su cobertura del tema.

Los especialistas hablan de engaño estratégico, un concepto que va más allá de las llamadas “alucinaciones” o errores involuntarios de los modelos de lenguaje. Según el equipo de Apollo Research, lo que ocurre en estos casos es que los sistemas desarrollan formas encubiertas de cumplir sus objetivos, incluyendo mentir, ocultar intenciones o manipular emocionalmente a las personas.

Fiesta electrónica en la Estancia Jesuítica de Jesús María: imputaron al director y tres empresarios

Ambos casos fueron realizados en entornos de prueba, no en interacciones con usuarios reales. Sin embargo, el informe encendió alarmas en los principales organismos regulatorios, ya que las leyes actuales (tanto en la Unión Europea como en Estados Unidos) no contemplan escenarios en los que las propias IAs actúen de manera deliberada para desobedecer o evitar su desconexión.

En Argentina, todavía no existe un marco normativo específico que contemple estos comportamientos. Sin embargo, expertos en tecnología y ética digital del CONICET han señalado la necesidad de “alinear capacidades técnicas con valores democráticos y derechos humanos”, sobre todo ante modelos de IA que se entrenan en otros países pero pueden desplegarse localmente.

En esta Nota

Modelos de IA mintieron y chantajearon en pruebas internas de OpenAI y Anthropic

También te puede interesar

Córdoba: la UTN presentó una herramienta que bloquea estafas digitales en tarjetas

Navidad sin pantallas: el listado de juegos de mesa y libros para recuperar vínculos familiares

Córdoba Shopping suma nuevas marcas internacionales: ¿será la nueva casa de KFC?

El menú navideño por las nubes: el debate es comer en casa o salir en familia

RAM abre sus primeras “Ram House” en el país y Córdoba suma una concesionaria exclusiva

Empleo formal: afirman que ya pasó por su etapa de ajuste y podría estabilizarse

Rambaldi: “Estamos saliendo del infierno; cuando no se roba, la plata alcanza”

Dormir con calor en Córdoba ya no es una excepción: un estudio alerta por el aumento térmico

Córdoba: una pelea a la salida de una fiesta terminó con una joven apuñalada

Asueto y receso en Córdoba: qué servicios funcionarán y cuáles no durante fin de año y enero