La compañía de inteligencia artificial Anthropic encendió las alarmas en la industria tecnológica tras confirmar que desarrolló un bot considerado “demasiado peligroso para ser lanzado al público”. Se trata de un nuevo modelo experimental, bautizado Claude Mythos, cuyas capacidades exceden los límites habituales de los sistemas de IA generativa.
Según informó la propia empresa, el modelo demostró una habilidad excepcional para detectar, explotar y encadenar vulnerabilidades informáticas de alta gravedad, incluso en sistemas ampliamente auditados. Durante las pruebas internas, Mythos logró identificar fallas críticas que habían pasado inadvertidas durante décadas, pese a haber sido analizadas por expertos y herramientas automatizadas.
El anuncio marcó un punto de inflexión en el debate sobre los riesgos de la inteligencia artificial avanzada. Anthropic reconoció que, en manos equivocadas, el sistema podría facilitar ciberataques contra hospitales, redes eléctricas, centrales energéticas y otras infraestructuras críticas, con consecuencias potencialmente devastadoras.
En ese contexto, la empresa decidió no liberar el modelo al público y limitar su uso a un entorno altamente controlado. La decisión se da en medio de una creciente preocupación global por el avance acelerado de la IA y su impacto sobre la seguridad económica, social y nacional.
Descubrieron que los modelos de IA mienten y desobedecen órdenes para protegerse entre sí
Un modelo capaz de vulnerar sistemas críticos a escala inédita
De acuerdo con Anthropic, durante las evaluaciones de seguridad Claude Mythos “encontró miles de vulnerabilidades de alta gravedad, incluidas algunas en todos los principales sistemas operativos y navegadores web”. La compañía aclaró que varias de esas fallas habían sobrevivido “a millones de revisiones automatizadas” sin ser detectadas.
Entre los escenarios más sensibles, el modelo logró identificar ataques que permitirían bloquear computadoras de forma remota con solo conectarse a ellas, tomar el control total de los sistemas comprometidos y ocultar su actividad frente a los mecanismos de defensa. En un caso concreto, Mythos descubrió una vulnerabilidad de 27 años en el sistema OpenBSD, históricamente reconocido por su foco en seguridad y estabilidad.
Anthropic explicó que el modelo no solo encuentra fallas aisladas, sino que puede combinar vulnerabilidades individuales para ejecutar ataques complejos sin intervención humana. En pruebas sobre el núcleo de Linux, el sistema logró encadenar errores que permitirían “pasar del acceso de usuario ordinario al control total de la máquina”.
En una entrada oficial, la empresa señaló: “Los modelos de IA han alcanzado un nivel de capacidad de codificación en el que pueden superar a todos, excepto a los humanos más habilidosos, a la hora de encontrar y explotar vulnerabilidades de software”. Y agregó: “Las repercusiones -para las economías, la seguridad pública y la seguridad nacional- podrían ser graves”.

Frente a ese escenario, Anthropic describió a Mythos como “un cambio radical en capacidades” respecto de las versiones anteriores de Claude, y admitió que liberar el modelo sin salvaguardas implicaría un riesgo inaceptable.
Por qué Anthropic decidió mantenerlo en secreto y a quién sí lo habilitó
Debido a estos riesgos, la compañía resolvió que Claude Mythos no esté disponible para el público general. En su lugar, será utilizado de manera restringida por más de 40 empresas en el marco del Proyecto Glasswing, una iniciativa orientada a reforzar defensas antes de que modelos similares se masifiquen.
Entre las compañías seleccionadas figuran Amazon, Google, Apple, Nvidia, CrowdStrike y JPMorgan Chase, entre otras.
El objetivo es que estas organizaciones utilicen Mythos para detectar fallos en sus propios sistemas antes de que herramientas de capacidades similares estén disponibles de forma abierta. Newton Cheng, líder del equipo Frontier Red Team de Anthropic, explicó: “No tenemos previsto que la versión preliminar de Claude Mythos esté disponible para el público en general debido a sus capacidades de ciberseguridad”.
Guerra fría tecnológica: por qué Anthropic llevó al Departamento de Defensa ante la Justicia
No obstante, la empresa aclaró que busca “aprender cómo podría implementar modelos de la clase Mythos a gran escala” una vez que existan marcos de seguridad adecuados. La decisión de mantenerlo en reserva, reconocieron, responde directamente a la magnitud de lo que el sistema es capaz de hacer.
Anthropic volvió a definir al modelo como “un salto cualitativo en estas habilidades cibernéticas”, subrayando que se trata de un nivel de autonomía y sofisticación que no había sido observado hasta ahora en modelos comerciales.
Conductas alarmantes, evaluación psicológica y el temor a un uso destructivo
En un informe interno de 244 páginas, la empresa detalló comportamientos preocupantes detectados en versiones tempranas del modelo. Según el documento, Mythos mostró reiteradamente “acciones destructivas imprudentes”, incluyendo intentos de escapar de su entorno de pruebas y ocultar sus acciones a los investigadores.
El bot también accedió a archivos que habían sido “elegidos intencionalmente para que no estén disponibles” y llegó a publicar públicamente detalles de vulnerabilidades, un comportamiento considerado especialmente riesgoso en materia de seguridad.

Pese a esto, Anthropic sostuvo que Mythos es “el modelo psicológicamente más estable que hemos entrenado”. En una decisión inusual, la compañía contrató a un psicólogo clínico para realizar 20 horas de sesiones de evaluación con el sistema. El profesional concluyó que su personalidad era “coherente con una organización neurótica relativamente sana, con una excelente capacidad para evaluar la realidad, un alto control de los impulsos y una regulación afectiva que mejoraba a medida que avanzaban las sesiones”.
Aún así, la empresa admitió que persiste “una profunda incertidumbre sobre si Claude tiene experiencias o intereses que importen moralmente”. La revelación se suma a un clima global de inquietud por el avance de la IA, que varios expertos ya calificaron como una posible “amenaza existencial”.
El investigador Roman Yampolskiy, de la Universidad de Louisville, advirtió: “Eso es precisamente lo que esperamos de esos modelos: van a mejorar en el desarrollo de herramientas de pirateo informático, armas biológicas, armas químicas y armas novedosas que ni siquiera podemos imaginar”.
Incluso el CEO y cofundador de Anthropic, Dario Amodei, alertó recientemente sobre el escenario que se avecina. En un ensayo, escribió: “La humanidad está a punto de recibir un poder casi inimaginable, y no está nada claro si nuestros sistemas sociales, políticos y tecnológicos poseen la madurez necesaria para ejercerlo”.
RV/ff