La empresa Apple realizó un estudio en que reveló cual es el problema que a la inteligencia artificial le cuesta resolver. Esto deja un espacio de duda en la confiabilidad que se le de a estas tecnologías. El estudio estuvo enfocado en las inteligencias especializadas en razonamiento o Large Reasoning Models (LRMs).
Según el estudio hay un obstáculo de razonamiento con cierto nivel de complejidad lógico, los cuales la IA no puede enfrentar. Esta evidencia desestima la creencia de que las tecnologías pueden pensar al igual que un humano con vivencias y aprendizajes y poner en practica todo de la misma manera.
Cómo fue el estudio que encontró el punto débil de la inteligencia artificial
La investigación estudió el comportamiento de modelos como OpenAI o1 y o3, DeepSeek R1, Claude 3.7 Sonnet Thinking y Google Gemini Flash Thinking. La conclusión expresa que al enfrentarse a problemas o encrucijadas, recurre a una "ilusión del pensamiento". Esto podría explicar el cuidado de Apple al aplicar IA a sus dispositivos.
El mecanismo de la investigación se baso en rompecabezas de lógica, como la Torre de Hanoi que consiste en mover discos apilados de mayor a menor en una de tres clavijas, y el objetivo es mover todos los discos a la tercera clavija sin colocar nunca un disco más grande sobre uno más pequeño. Son comunes en uso de clases de matemática ya que usualmente se usan para medir el raciocinio humano para solucionar problemas.
“Los resultados muestran que todos los modelos de razonamiento exhiben un patrón similar respecto a la complejidad: la precisión disminuye progresivamente a medida que aumenta la complejidad del problema hasta alcanzar un colapso completo (precisión cero) más allá de un umbral de complejidad específico para cada modelo” explicaron los investigadores de Apple.
Overthinking (pensar de más) en los procesos de la IA
El estudio reveló que los modelos de lenguaje estándar (LLMs) son más eficientes y precisos en tareas de baja complejidad. Sin embargo, los Modelos de Razonamiento (LRMs) demostraron una clara ventaja en tareas de complejidad media, gracias a su capacidad para generar cadenas de pensamiento más extensas. Sorprendentemente, al enfrentar problemas de alta complejidad, ambos tipos de modelos mostraron un colapso total en su desempeño.
Los investigadores notaron que los LRMs inicialmente usan más "tokens de pensamiento" al aumentar la complejidad, pero de forma contraintuitiva, reducen este esfuerzo al acercarse a su punto de colapso de precisión. Incluso al proporcionar a los LRMs las respuestas o incluir algoritmos en las instrucciones, su precisión no mejoró. Este comportamiento sugiere que los modelos no logran autocorregirse o adaptarse a desafíos más exigentes.
El análisis de los procesos intermedios reveló un fenómeno de "overthinking" en problemas simples, donde los modelos exploran alternativas incorrectas incluso después de encontrar la solución. Aunque los hallazgos pueden parecer desalentadores, el estudio no concluye que los LRMs carezcan de habilidades de razonamiento, sino que sus limitaciones en problemas complejos a menudo se asemejan a las humanas. Esto refuerza la idea de que los LLMs no son un reemplazo para algoritmos convencionales bien especificados.








