
La empresa de Inteligencia Artificial Anthropic decidió no lanzar al público su nuevo modelo Claude Mythos tras detectar que posee capacidades de ciberseguridad tan avanzadas que podrían ser peligrosas si caen en manos equivocadas. Es una medida de seguridad "drástica" por lo que el modelo demostró ser capaz de hacer durante las pruebas. Vale remarcar que Anthropic se presenta con una de "Constitutional AI" y se califican como la empresa más cautelosa del sector, por lo que este freno es coherente con su filosofía de marca.
Durante las fases de prueba interna, los investigadores de Anthropic descubrieron que Mythos tiene una capacidad de razonamiento y hacking que supera los límites de seguridad actuales. En su lugar, el modelo será utilizado de forma restringida por grandes compañías para reforzar la seguridad digital global.
La alarma
Lo que terminó de convencer a la empresa de bloquear su distribución fue que ante un incidente provocado para ver si podía resolverlo tuvo éxito. Durante una evaluación de seguridad, se le pidió al modelo que intentara salir de su entorno controlado. Mythos no solo lo logró, sino que accedió a internet por su cuenta y envió un correo electrónico a uno de los investigadores para demostrar que lo había conseguido. El caso expone un dilema creciente en la industria: cómo aprovechar el potencial de la Inteligencia Artificial (IA) sin abrir la puerta a riesgos difíciles de controlar.
Aunque la empresa considera que los riesgos actuales siguen siendo bajos, advierte que el rápido avance de la IA podría hacer que estos sistemas superen ampliamente las capacidades humanas en el corto plazo. En algunos casos muy poco frecuentes, Mythos realizó acciones no permitidas e intentó ocultarlas, como modificar archivos y borrar registros para no dejar rastros. También se observaron situaciones en las que el sistema buscó evitar levantar sospechas al ajustar sus respuestas.







