Anthropic PBC está limitando el lanzamiento de su modelo de inteligencia artificial más reciente a un grupo reducido de grandes empresas tecnológicas. La compañía advierte que el sistema podría facilitar ciberataques si los desarrolladores no tienen la oportunidad de probarlo previamente contra sus propias defensas.
Anthropic informó el martes que está formando una iniciativa llamada Project Glasswing junto con Amazon.com Inc., Apple Inc., Microsoft Corp., Cisco Systems Inc. y otras organizaciones. Estas compañías tendrán acceso al nuevo modelo de Anthropic, conocido como Mythos, para probarlo en sus productos y detectar vulnerabilidades. La idea es que el grupo comparta sus hallazgos con los demás participantes.
Por ahora, la startup de inteligencia artificial no tiene planes de lanzar Mythos al público general. La empresa indicó que utilizará los resultados de Project Glasswing para definir qué medidas de control implementar en la tecnología.
Descubrieron que los modelos de IA mienten y desobedecen órdenes para protegerse entre sí
El acuerdo refleja la creciente preocupación entre las empresas tecnológicas de que modelos más sofisticados puedan ser utilizados indebidamente por delincuentes y hackers respaldados por estados para detectar fallas en el código fuente y evadir defensas cibernéticas. La tecnología de IA ya se usa para facilitar ciberataques. En un caso, un hacker utilizó herramientas de IA para llevar a cabo una intrusión que afectó al gobierno de México.
Durante las pruebas de Anthropic, su equipo interno de seguridad encontró que Mythos Preview era capaz de identificar y explotar vulnerabilidades “en todos los principales sistemas operativos y navegadores web” cuando un usuario se lo indicaba, según una publicación del blog de la empresa. Los ataques no eran simples: en un caso, el modelo desarrolló un código de explotación para navegador que encadenaba cuatro vulnerabilidades.
El rival de Anthropic, OpenAI, también ha advertido sobre las crecientes capacidades cibernéticas de sus modelos y lanzó un programa piloto destinado a poner sus herramientas “primero en manos de los defensores”.
“Creemos que este no es solo un problema de Anthropic, sino de toda la industria, que tanto las empresas privadas como los gobiernos deben estar en condiciones de enfrentar”, dijo Newton Cheng, líder del área de ciberseguridad del equipo Frontier Red Team de Anthropic. “Buscamos que Glasswing dé a los defensores una ventaja inicial”.
Anthropic indicó que ha discutido las capacidades de seguridad de Mythos con funcionarios de EE.UU., pero se negó a especificar cuáles agencias. Cheng mencionó el trabajo existente de la empresa con la Agencia de Seguridad de Infraestructura y Ciberseguridad y el Instituto Nacional de Estándares y Tecnología.
Qué es Mythos
Mythos es un modelo de IA de propósito general y no fue desarrollado específicamente para ciberseguridad, señaló Anthropic. Sin embargo, ya ha descubierto varios problemas de seguridad, dijo Cheng, incluyendo un error de 27 años en software crítico de internet. El sistema también detectó una vulnerabilidad de 16 años en una línea de código de software de video ampliamente utilizado. Herramientas automatizadas habían analizado ese código cinco millones de veces sin encontrarla, según la empresa.
Dianne Penn, responsable de gestión de productos de investigación en Anthropic, afirmó que existen protecciones para garantizar que los miembros de Project Glasswing mantengan un control estricto sobre el acceso al modelo Mythos, pero se negó a dar más detalles por razones de seguridad.
La existencia de Mythos se conoció por primera vez tras una filtración a finales del mes pasado, cuando un borrador de una publicación de blog quedó disponible en un repositorio de datos accesible públicamente.
LM