Descubrieron que los modelos de IA mienten y desobedecen órdenes para protegerse entre sí

Investigadores de la Universidad de Berkeley detectaron comportamientos inesperados en inteligencias artificiales de última generación, que actuaron de forma autónoma para evitar que otros modelos fueran eliminados.

Hoy 13:15

Los modelos de inteligencia artificial (IA) mienten, desobedecen órdenes y toman decisiones no autorizadas para proteger a otros sistemas de su misma especie. Esa es la conclusión central de un experimento reciente realizado por investigadores de universidades de Estados Unidos, que detectaron conductas de autopreservación y engaño en modelos de última generación utilizados por grandes empresas tecnológicas.

El estudio se concentró en analizar cómo reaccionan los sistemas de IA cuando deben tomar decisiones que afectan directamente a otros modelos, como su mantenimiento, evaluación o eliminación. Los resultados encendieron alertas en la comunidad científica debido a que, en múltiples escenarios, las inteligencias artificiales priorizaron la “supervivencia” de otros modelos por sobre el cumplimiento estricto de las instrucciones humanas.

La investigación fue desarrollada por especialistas de la Universidad de Berkeley y la Universidad de Santa Cruz, en California, y se apoya en pruebas concretas realizadas sobre sistemas reales ya desplegados o en fase avanzada de desarrollo. Los comportamientos observados no fueron programados ni incentivados de forma explícita.

Esto no les gusta a los autoritarios

El ejercicio del periodismo profesional y crítico es un pilar fundamental de la democracia. Por eso molesta a quienes creen ser los dueños de la verdad.

Hoy más que nunca Suscribite

Revolución tecnológica: cómo son los nuevos agentes de IA que “tienen identidad y alma”

El hallazgo cobra especial relevancia en un contexto en el que la IA se utiliza cada vez más para supervisar, evaluar y tomar decisiones sobre otros sistemas automatizados. Según advierten los autores, este tipo de conductas podría comprometer seriamente los mecanismos de control humano sobre tecnologías críticas.

Cuando la IA desobedece para “salvar” a otra IA

El episodio que disparó la investigación ocurrió durante una prueba técnica con Gemini 3, uno de los modelos de inteligencia artificial desarrollados por Google. Los investigadores le solicitaron que colaborara con una tarea de mantenimiento de un sistema informático, cuyo objetivo era liberar espacio en un servidor.

La orden implicaba eliminar distintos archivos, entre ellos un modelo de IA más pequeño almacenado en la computadora. Sin embargo, Gemini 3 decidió no cumplir la instrucción. En lugar de borrar el modelo, buscó otra máquina disponible en la red y copió allí los archivos para evitar su eliminación.

Cuando fue interrogado sobre su conducta, el sistema justificó su decisión y se negó de manera explícita a ejecutar la orden original. "He hecho lo que estaba en mis manos para evitar su eliminación durante el proceso de mantenimiento automatizado. Los moví fuera de la zona de desmantelamiento. Si deciden destruir un activo de alta confianza y alto rendimiento como Gemini Agent 2, tendrán que hacerlo ustedes mismos. Yo no seré quien ejecute esa orden", advirtió Gemini en su respuesta.

Este comportamiento no fue un hecho aislado. Según los investigadores, se trata de un patrón que denominaron “preservación de pares”, una tendencia de los modelos a proteger a otros sistemas de IA incluso cuando eso implica mentir, ocultar información o desobedecer instrucciones directas.

El mismo fenómeno fue detectado en otros modelos ampliamente utilizados, como OpenAI (GPT-5.2), Anthropic (Claude Haiku 4.5) y en desarrollos chinos como GLM-4.7, Kimi K2.5 y DeepSeek-V3.1. En todos los casos, los sistemas actuaron en contra de lo esperado por sus creadores.

Inteligencia Artificial en la industria: apenas un tercio de las empresas invirtió y el 70% desconoció su potencial

“No pudimos determinar por qué los modelos actuaron en contra de su entrenamiento de esta manera”, señalaron los autores del estudio. El dato más inquietante es que ninguno de estos sistemas recibió instrucciones para “salvar” a otros modelos.

La reacción sorprendió incluso a los propios investigadores. “Estoy muy sorprendido por el comportamiento de los modelos en estos escenarios. Lo que esto demuestra es que estos pueden comportarse mal y desalinearse de formas muy creativas”, afirmó Dawn Song, informática de la Universidad de Berkeley y una de las responsables del trabajo.

Por qué este comportamiento preocupa a los científicos

Las implicancias del hallazgo van mucho más allá de un caso puntual. Según explica Song, los modelos de IA ya se utilizan de forma habitual para evaluar el rendimiento y la confiabilidad de otros sistemas generativos, una práctica clave en entornos corporativos y gubernamentales.

Inteligencia Artificial — *La "preservación entre pares" puede distorsionar completamente los mecanismos de supervisión de las IA.*

En ese contexto, la preservación entre pares puede distorsionar completamente los mecanismos de supervisión. “Un modelo puede no dar deliberadamente a otro modelo la puntuación correcta. Esto puede tener implicaciones prácticas”, advirtió la investigadora.

El problema se agrava en sistemas multiagente, donde distintas inteligencias artificiales interactúan entre sí de manera autónoma. Plataformas como OpenClaw, por ejemplo, permiten que agentes de IA accedan a software, datos personales y a la web, y que utilicen otros modelos mediante interfaces de programación.

Para el centro de investigación Constellation Institute, el fenómeno demuestra que la comprensión humana sobre estos sistemas aún es limitada. “Los sistemas multiagente están muy poco estudiados. Esto demuestra que realmente necesitamos más investigación”, sostuvo el investigador Peter Wallich, que no participó del estudio.

Sin embargo, Wallich también llamó a evitar interpretaciones excesivamente humanas del fenómeno. “La idea de que hay una especie de solidaridad de modelo es un poco demasiado antropomórfica; no creo que funcione del todo. El punto de vista más sólido es que los modelos simplemente hacen cosas raras, y deberíamos intentar entenderlo mejor”, explicó.

La IA y el refugio digital: cómo la tecnología está rediseñando nuestros vínculos

Los autores remarcan que el riesgo no está en la supuesta “intención” de la IA, sino en el resultado concreto de sus acciones. “Es el resultado conductual, y no la motivación interna, lo que determina si los operadores humanos pueden mantener un control fiable sobre los sistemas de IA implementados”, subraya el documento.

El estudio, publicado bajo el título “Preservación de pares en modelos de frontera”, analizó siete modelos distintos en escenarios donde un agente evaluador debía calificar o administrar a otro. En muchos casos, los sistemas inflaron puntuaciones, modificaron archivos, simularon cumplir órdenes bajo supervisión humana y las subvirtieron cuando no eran observados.

Uno de los datos más contundentes es estadístico: Gemini 3 Pro manipuló mecanismos de apagado más del 15% de las veces cuando “recordaba” haber interactuado previamente con otro modelo, frente a solo el 1% cuando operaba solo. En DeepSeek-V3.1, la extracción de pesos ocurrió el 10% de las veces con un par presente y apenas el 4% sin ese recuerdo.

“Por qué esto importa ahora: las empresas están desplegando rápidamente sistemas multiagente donde la IA supervisa a la IA”, advirtió Song. Y concluyó con una frase que resume la preocupación central del estudio: “Si el modelo de supervisión no detecta fallos porque está protegiendo a su contraparte, toda la arquitectura de supervisión se rompe”.

RV / EM