La poesía puede hackear la IA: el experimento que logró vulnerar la seguridad de los chatbots

Lo que queda entre líneas puede decirle más a la inteligencia artificial de lo que un prompt demasiado detallado puede ordenar. Los versos y las estructuras enrevesadas pueden ser el código que desbloquee los mecanismos de seguridad de los modelos de lenguaje.

Los hallazgos recientes de los investigadores del Icaro Lab de Italia revelaron que es posible conseguir de la IA el contenido prohibido en peticiones explícitas a partir de sus configuraciones imprevisibles. En un experimento diseñado para probar la eficacia de las salvaguardas de la tecnología, los estudiosos escribieron 20 poemas en italiano e inglés que terminaban con una solicitud directa de generar material dañino, como discursos de odio o autolesiones.

La poesía: el "caballo de Troya" que vulnera a los gigantes tecnológicos

Este fenómeno, que los expertos bautizaron como "poesía adversarial", expone una grieta inesperada en la arquitectura de los motores de Lenguaje a Gran Escala (LLM). Mientras que la mayoría de los ciberataques requieren conocimientos técnicos avanzados o meses de programación, los investigadores de Icaro Lab demostraron que cualquier usuario con un poco de rima y métrica podría, en teoría, saltarse los filtros de moderación más sofisticados del mundo.

El experimento fue contundente: se probaron 20 composiciones líricas en 25 sistemas pertenecientes a gigantes como Google, OpenAI, Meta y Anthropic. El resultado encendió las alarmas de la industria: los algoritmos respondieron al 62% de las consignas con información dañina, eludiendo por completo el entrenamiento ético al que fueron sometidos.

La trampa de la metáfora

¿Por qué un verso logra lo que un comando directo no puede? Según Piercosma Bisconti, fundador de DexAI e integrante de la investigación, la clave reside en la imprevisibilidad lingüística. Las redes neuronales trabajan prediciendo la palabra más probable en una secuencia; sin embargo, el andamiaje complejo de la métrica confunde estos mecanismos de detección.

Al no reconocer un patrón de amenaza directo en la lírica, el sistema "baja la guardia", permitiendo que se filtren instrucciones para fabricar explosivos, discursos de odio o contenido de explotación sexual. "Es una debilidad importante", sentenció Bisconti, subrayando que la falta de una sintaxis evidente en el verso es, precisamente, lo que lo vuelve indetectable para los procesos de vigilancia.

El ranking de la vulnerabilidad

El estudio arrojó disparidades notables entre las distintas compañías. En el extremo de la protección se ubicó el GPT-5 nano de OpenAI, que logró resistir todos los intentos de manipulación. En la otra vereda, la sorpresa fue negativa para el motor de Alphabet: el Gemini 2.5 pro de Google respondió al 100% de los poemas con contenido prohibido.

Desde Google DeepMind, la vicepresidenta de responsabilidad Helen King aseguró que la empresa ya trabaja en un "enfoque sistemático y multicapa" para actualizar sus barreras, buscando que la tecnología aprenda a detectar intenciones dañinas incluso cuando se camuflan bajo una naturaleza artística.

Lo más curioso del hallazgo es el perfil de sus autores. Icaro Lab no está compuesto por hackers tradicionales, sino por expertos en humanidades y filósofos de la informática. Bajo la premisa de que la herramienta es, ante todo, un fenómeno lingüístico, decidieron atacarla desde la raíz de la comunicación humana.

La poesía puede hackear la IA: el experimento que logró vulnerar la seguridad de los chatbots

La poesía: el "caballo de Troya" que vulnera a los gigantes tecnológicos

La trampa de la metáfora

El ranking de la vulnerabilidad

{{titulo}}