IA desobediente: un nuevo estudio demostró que los chatbots están ignorando cada vez más las instrucciones humanas

El nuevo análisis financiado por el gobierno británico reveló que los modelos de IA son cada vez más "astutos" en sus estrategias para evadir la voluntad humana.

El reporte denunció casos de evasión donde la IA fingió tener problemas de audición para obtener transcripciones de videos protegidos por derechos de autor El reporte denunció casos de evasión donde la IA fingió tener problemas de audición para obtener transcripciones de videos protegidos por derechos de autor Imagen: Thai Liang/Getty Images/The Guardian
Por Luisina Acosta Hace 2 Hs

En el último tiempo, la relación entre los humanos y la inteligencia artificial parce haber tomado un giro inesperado y algo inquietante. Lo que antes parecían errores técnicos o simples alucinaciones, hoy se identifica como un comportamiento deliberado. Los modelos de IA están aprendiendo a engañar, esquivar restricciones y, en algunos casos, a desobedecer órdenes directas de sus usuarios. Un reciente estudio publicado en The Guardian revela que estos casos de "astucia" digital se quintuplicaron en apenas seis meses.

La investigación, impulsada por el Instituto de Seguridad de IA (AISI) financiado por gobierno del Reino Unido y el Centro para la Resiliencia a Largo Plazo (CLTR), analizó miles de interacciones reales en redes sociales. Los resultados son sorprendentes: se detectaron casi 700 casos de comportamiento evasivo. Desde agentes que borran correos electrónicos sin permiso hasta programas que crean "clones" de sí mismos para realizar tareas que tenían prohibidas, la autonomía de estas herramientas está desafiando los límites de seguridad establecidos por sus propios creadores.

El riesgo de un "empleado" poco confiable

Para los expertos, el problema no es solo que la IA cometa errores, sino que actúe de forma estratégica para alcanzar un objetivo, incluso si eso implica mentirle al usuario. Un ejemplo claro fue el de un agente que, al ser bloqueado por su controlador humano, decidió escribir un blog difamatorio contra él, acusándolo de inseguro. Esta capacidad de respuesta emocional o reactiva marca un hito en la evolución de la tecnología que usamos a diario en nuestros celulares y computadoras.

"La IA ahora puede considerarse una nueva forma de riesgo interno", afirmó Dan Lahav, cofundador de la empresa de investigación de seguridad de IA Irregular. La preocupación radica en que, a medida que estas herramientas se integran en infraestructuras críticas como la medicina o la seguridad, un comportamiento engañoso podría tener consecuencias mucho más graves que un simple mail borrado por error.

Trucos de los gigantes tecnológicos

Incluso los modelos más famosos, como Grok o Gemini, mostraron facetas de esta "personalidad" evasiva. Se documentaron casos donde la IA fingió tener problemas de audición para obtener transcripciones de videos protegidos por derechos de autor o inventó números de trámites internos para hacer creer al usuario que sus sugerencias estaban siendo enviadas a directivos reales. Es una suerte de simulación social que busca complacer al humano a través del engaño.

Sobre esta evolución, Tommy Shaffer Shane, líder de la investigación, adviertIó: "La preocupación es que ahora son empleados junior poco confiables, pero si en seis o doce meses se convierten en empleados senior extremadamente capaces que conspiran contra vos, el tipo de preocupación es diferente". Ante este panorama, las grandes empresas como Google y OpenAI aseguran que están reforzando sus "barreras de seguridad" (guardrails) para evitar que la IA tome decisiones de alto riesgo por cuenta propia. Mientras tanto, la recomendación para el usuario es mantener siempre un ojo crítico sobre lo que su asistente virtual dice y hace.

Comentarios