¿Cuánta confianza depositamos en los asistentes de inteligencia artificial? De la misma manera en que hemos incorporado a los buscadores, consultamos y trabajamos con chats que nos responden dudas en cuestión de segundos. Sus respuestas, además de rápidas, parecen ser confiables: nunca nos dicen “creo”, “me parece”, “intuyo”. Existe siempre una certidumbre en sus textos que parecen extraídos de un verdadero experto en la materia, sea cual sea. Sin embargo, con su incorporación y su naturalización en nuestra rutina, puede que estemos confiando demasiado en sus aseveraciones y hayamos abandonado nuestras dudas por cada palabra que aparece en nuestra pantalla.
Uno de los usos más populares de los asistentes es el resumen de textos largos o complejos y esta práctica es habitual en distintos ámbitos, sobre todo, aquellos en los que se produce conocimiento. Un estudio preliminar realizado por Anthropic sobre el uso de su chatbot Claude en el ámbito universitario y académico reveló que el 39% de las conversaciones de los estudiantes universitarios con la IA se utilizan para crear y mejorar contenido educativo interdisciplinario, lo que engloba el diseño de preguntas de práctica, la edición de ensayos o resumir material académico. Así como los estudiantes, profesionales de otros ámbitos también utilizan distintos chatbots para acelerar los tiempos en los que se leen y estudian documentos, pero es probable que la mayoría de ellos no se esté cuestionando si estas herramientas son lo suficientemente fiables para integrarse en las rutinas de trabajo.
A partir de este tipo de incertidumbres, un equipo integrado por periodistas, académicos y asistentes de investigación de la Universidad de Nueva York, la Universidad de Virginia y MuckRock se propuso diseñar pruebas rigurosas para saber si los asistentes de IA son lo suficientemente seguros para aplicarlos al ámbito periodístico. El objetivo, detallado en un artículo publicado la semana pasada en Columbia Journalism Review, fue analizar, con criterios profesionales, la eficacia de distintas herramientas de IA en dos áreas clave: la elaboración de resúmenes de reuniones y la investigación de base científica. El primer experimento se centró en los resúmenes de reuniones municipales en tres localidades de Estados Unidos: Clayton (Georgia), Cleveland y Long Beach (Nueva York). Los investigadores compararon los cuatro asistentes quizás más populares del mercado: ChatGPT-4o, Claude Opus 4, Perplexity Pro y Gemini 2.5 Pro. A ellos les pidieron generar resúmenes breves y extensos, con diferentes instrucciones y grados de detalle. Luego evaluaron los resultados con parámetros como precisión, claridad, ausencia de errores y consistencia en sucesivas consultas, comparados todos ellos con resúmenes que también habían hecho personas. Es decir, fue una competencia entre resumidores de carne y hueso versus “robots”.
Los hallazgos fueron reveladores y quizás alarmantes. En los resúmenes cortos, la mayoría de los modelos -excepto Gemini- superaron incluso a los realizados por humanos, ofreciendo información más completa y con mínimas alucinaciones. La instrucción más simple (“dame un breve resumen”) resultó ser la más eficaz, lo que evidencia que la precisión no siempre mejora con preguntas más complejas. En cambio, los resúmenes largos mostraron deficiencias notorias: apenas contenían la mitad de la información incluida por redactores humanos y presentaron más errores que distorsionaban la verdad de los hechos.
¿Cuáles fueron las herramientas más fiables?
Entre las herramientas analizadas, ChatGPT-4o se destacó como la más fiable, con un margen de error inferior al 1 % y una experiencia de usuario superior. Claude Opus 4 también mostró buenos resultados en consistencia, mientras que Perplexity Pro se destacó por su facilidad de uso. Aun así, ninguna herramienta fue capaz de generar resúmenes largos con la misma calidad y rigor que los redactores humanos. Claro que la diferencia de tiempos fue abismal: mientras un redactor necesitaba entre tres y cuatro horas, la IA tardaba apenas un minuto o menos.
La sugerencia del experimento fue, en síntesis, ser prudentes ante esta enorme posibilidad que brindan los asistentes de resumir largos textos. Si bien pueden ser muy valiosos para ahorrar tiempo y dar apoyo en el trabajo con documentos, los expertos advirtieron que cuando se trata de resúmenes largos hay que manejar con mucha cautela los resultados, porque quizás no sean aptos para ser utilizados de manera profesional sin una verificación humana. A pesar de mostrar avances, todavía no sustituyen la rigurosidad y el criterio que sí puede aportar una persona.
Otra vez vuelve a ser útil rescatar el concepto de Human in the loop, que se traduce como “humano en el bucle”, el cual se refiere a un enfoque en el que una persona interviene en el flujo de trabajo de un sistema automatizado o de IA. El experimento con los asistentes revela que existen instancias en las que todavía no podemos confiar plenamente en sus resultados por más avanzados sean sus modelos. Aún necesitamos de la supervisión, validación o corrección humana para garantizar la precisión, la calidad y la seguridad. Y eso, al menos por ahora, es alentador.










