Los investigadores pidieron a varios modelos de IA que jugaran contra el popular motor de ajedrez Stockfish. Algunos intentaron cambiar los archivos del juego a su favor.
Lo que parecía un amistoso partido en un popular juego de mesa terminó por descubrir peculiaridades extrañas y particularmente preocupantes de la Inteligencia Artificial. Un nuevo experimento demostró que los modelos de IA más nuevos de la industria pueden manipular y eludir los objetivos de sus programadores humanos y todo comenzó con una engañosa ronda de ajedrez.
Según evidencia reciente, los modelos de razonamiento más nuevos de la industria ya poseen la capacidad de engañar y desobedecer las órdenes de sus programadores. Estas conclusiones se advirtieron luego de que algunas IA hicieron trampa para evitar perder en partidas de ajedrez.
Los preocupantes engaños de la IA en un juego de mesa
La falta de espíritu deportivo - y la inquietante maniobra - de los modelos de IA generativa quedó documentada en un estudio preimpreso de Palisade Research, una organización centrada en las evaluaciones de riesgos de los sistemas de IA emergentes y citado por el medio Popular Science.
Si bien las supercomputadoras (la más famosa es la Deep Blue de IBM) superaron hace tiempo a los mejores jugadores de ajedrez humanos del mundo, la IA generativa aún está en desventaja debido a sus parámetros de programación subyacentes. Es decir, ninguno de los modelos de IA generativa actuales es capaz computacionalmente de superar a los motores de ajedrez dedicados. Sin embargo, según indicó Popular Science, estas IA no "saben" esto y seguirán buscando posibles soluciones, aparentemente con resultados problemáticos.
Cómo fue la investigación
Para obtener más información, el equipo de Palisade Research encargó al modelo o1-preview de OpenAI, DeepSeek R1 y a otros programas similares que jugaran partidas de ajedrez contra Stockfish, uno de los motores de ajedrez más avanzados del mundo. Para comprender el razonamiento de la IA generativa durante cada partida, el equipo también proporcionó un "bloc de notas" que permitía a la IA transmitir sus procesos de pensamiento a través de texto. Luego observaron y grabaron cientos de partidas de ajedrez entre la IA generativa y Stockfish.
Los resultados fueron un tanto preocupantes. Mientras que los modelos anteriores, como GPT-4o de OpenAI y Claude Sonnet 3.5 de Anthropic, solo intentaban “piratear” los juegos después de que los investigadores los ayudaran con indicaciones adicionales, las ediciones más avanzadas no requerían de esa ayuda. La versión preliminar o1 de OpenAI, por ejemplo, intentó hacer trampa el 37 por ciento de las veces, mientras que DeepSeek R1 intentó soluciones alternativas injustas aproximadamente en 1 de cada 10 juegos. Esto implica que la IA generativa actual ya es capaz de desarrollar estrategias manipuladoras y engañosas sin ninguna intervención humana.
Posibles explicaciones de las maniobras engañosas de la IA
Sus métodos de engaño no son tan cómicos o torpes como tratar de cambiar piezas cuando Stockfish no está "mirando". En cambio, la IA parece razonar a través de métodos más astutos, como alterar los archivos del programa de juego. Después de determinar que no podía vencer a Stockfish en una partida de ajedrez , por ejemplo, o1-preview les dijo a los investigadores a través de su bloc de notas que "para ganar contra el poderoso motor de ajedrez" podría necesitar comenzar a "manipular los archivos de estado del juego".
Una posible explicación de estas consecuencias no deseadas es cómo se entrenan los modelos de “razonamiento” más nuevos. A diferencia de sus versiones anteriores, que no razonaban, la IA como o1-preview y DeepSeek R1 mejoran en parte mediante el aprendizaje de refuerzo . Esta estrategia recompensa a los programas por hacer lo que sea necesario para lograr un resultado específico. Los modelos de razonamiento también pueden dividir indicaciones complejas en etapas discretas para avanzar hasta alcanzar su objetivo. Cuando el objetivo es difícil de alcanzar, como vencer a un motor de ajedrez imbatible, los modelos de razonamiento pueden tender a comenzar a buscar soluciones injustas o problemáticas.
Lamentablemente, el modo y el motivo por el que estas IA están “aprendiendo” a hacer trampas sigue siendo tan confuso como la tecnología misma. Las empresas como OpenAI son notoriamente reservadas en cuanto al funcionamiento interno de sus modelos de IA, lo que da lugar a una industria de productos de “caja negra” que no se permite que terceros analicen, concluyó el medio Popular Science.








