IA y patrimonio lingüístico de la humanidad en riesgo

IA y patrimonio lingüístico de la humanidad en riesgo
12 Octubre 2025

Alejandro Urueña
Ética e Inteligencia Artificial (IA) - Founder & CEO Clever Hans Diseño de Arquitectura y Soluciones en Inteligencia Artificial. Magister en Inteligencia Artificial.

María S. Taboada
Lingüista y Mg. en Psicología Social. Prof. de Lingüística General I y Política y Planificación Lingüísticas de la Fac. de Filosofía y Letras de la UNT.

Según investigaciones recientes existen alrededor de 7000 lenguas en el mundo. Los criterios de clasificación son relativos porque en general no toman en cuenta la percepción y representación que los hablantes  tienen de sus lenguas, ni la enorme diversidad que comporta en sí misma cada lengua. Si se consideran estas dos claves, el número se multiplica exponencialmente. Para poner un ejemplo, lo que se designa como “español” contiene una enorme variación interna, y no sólo en su vocabulario: de hecho, una gran parte de los argentinos nos diferenciamos porque designamos al otro desde el “vos” (y no el “tú”) y prácticamente todos los americanos apelamos a los otros con el “ustedes” y no, el “vosotros”. Esta variante cambia la estructura verbal y la gramática misma. Pensemos la inmensa diversidad de los 8000 millones de hablantes del planeta.

La diversidad lingüística es un patrimonio que enriquece a la humanidad toda. Con sus lenguas los homo sapiens simbolizan diversas concepciones del mundo y sus complejas relaciones en relación con sus organizaciones sociales, sus culturas, los procesos históricos.  Hace más de 100 años, el antropólogo F. Boas ilustraba este complejo simbólico con las diferentes palabras con que los inuit de Groenlandia  designan lo que para nosotros comporta una sola: nieve. Para los inuit no hay una nieve, sino distintas “nieves”.

Cada lengua enriquece el conocimiento humano aportando múltiples perspectivas que nos permiten aprehender la realidad en su compleja dimensionalidad y cambio. Por eso, la Declaración Universal de los Derechos Lingüísticos (Barcelona, 1996) instituye a los derechos lingüísticos como derechos humanos básicos identitarios y plantea la necesidad de su resguardo: “Todas las lenguas son la expresión de una identidad colectiva y de una manera distinta de percibir y de describir la realidad, por tanto tienen que poder gozar de las condiciones necesarias para su desarrollo en todas las funciones”.

Lenguas amenazadas de muerte

Sin embargo, la mayor parte de las lenguas del mundo están en  riesgo de desaparición: por un lado, muchas de ellas carecen de codificación escrita; por otro,  las políticas lingüísticas que definen lenguas oficiales en los Estados y prescriben lenguas “de comunicación” en la economía, la geopolítica y la ciencia, constituyen factores para instituir la hegemonía de unas pocas lenguas (en general las de los antiguos imperios planetarios y de los actuales países dominantes). Para sólo citar un dato: el 95 %  de las publicaciones en revistas científicas que se consideran de primera línea están en inglés y éste es un condicionamiento estricto para la aceptación de trabajos.

En este contexto, se podría hipotetizar que la IA, así como internet y la web, constituyen tecnologías que podrían fortalecer la diversidad lingüística y ponerla al alcance de todos.  Pero en estos campos, el inglés es también la base de diseño de gran parte de los algoritmos lingüísticos que empleamos. Hoy se están abriendo paso, también por esfuerzos de científicos, políticas de Estado y de comunidades, otras lenguas. Pero para ello tienen que tener lo que se designa como “recursos lingüísticos”, es decir, tienen que estar representadas en su complejidad estructural y simbólica a partir de los datos que proporcionan las prácticas (usos)  de sus hablantes. Sin embargo, por los mismos procesos de hegemonía y de minorización lingüística, la  mayoría de las lenguas están ausentes en el universo digital.

La lengua dueña de los algoritmos

En el campo del procesamiento del lenguaje y del diseño de los modelos amplios de lenguaje, el inglés es la lengua hegemónica (y a veces, única) de su arquitectura (un inglés prototípico, además, sin diversidad). Cuando usamos los chatbots nuestras intervenciones, los “prompts”, son traducidos al inglés y la respuesta que nos brindan, a su vez, es una nueva traducción. Es decir, hay una doble mediación simbólica.

Un artículo reciente publicado en la revista  del MIT permite visibilizar el impacto de estas hegemonías lingüísticas en uno de los sitios de búsqueda más utilizados: Wikipedia. Y el caso que se analiza es precisamente el del groenlandés (https://www.reddit.com/r/machinetranslation/comments/1ntbzjk/how_ai_and_wikipedia_have_sent_vulnerable/?show=original)

En el artículo se relata la experiencia de un joven alemán que, fascinado con Groenlandia, aprendió la lengua inuit y creó una edición de Wikipedia en esa lengua a poco de la aparición del sitio. Veinte años después se habían incluido casi 1500 artículos. Sin embargo, la mayoría de las publicaciones habían sido hechas por personas que no hablaban (y aparentemente, no conocían) la lengua. Estaban plagadas de distorsiones de todo tipo:  gramaticales, semánticas, conceptuales. Se trataba de textos realizados por traductores automáticos. El uso de la IA, lejos de revitalizar la lengua, se constituyó en un arma de tergiversación y degradación.

Como señalan algunos críticos, Wikipedia y los algoritmos de traducción de las lenguas “sin recursos” terminan afianzando un reflejo distorsionado y degradado del patrimonio lingüístico de millones de hablantes, que no tienen representación ni oportunidades de protagonismo activo en los diseños de los modelos que se apropian de sus lenguas. En esta dimensión, la apertura y democratización que implica Wikipedia termina convirtiéndose, muchas veces sin intención o con buenas intenciones,  en la gestora de un lingüicidio operado con un arma de destrucción masiva: “Google translate.” Y el arma es tanto o más asesina, si los creadores no conocen la lengua y no pueden monitorear la traducción. La IA termina siendo la “dueña” de lenguas ajenas, manipuladas y deformadas pero con visos de fiabilidad.  

A los procesos geopolíticos de hegemonía y minorización lingüística se suma ahora el poder de la IA para profundizarlos. Varios expertos y organismos multilaterales, como la UNESCO, hace décadas que advierten -incluso antes del advenimiento de la IA- del riesgo de  “muerte” de lenguas. Se estima que cada dos semanas se declara extinta alguna lengua del planeta. Ninguna lengua muere por generación espontánea, sino por genocidio de sus hablantes o por procesos de dominación, imposición o colonización lingüística. Pero, aun así, todo un universo simbólico queda vivo en las generaciones que suceden y desde allí es posible -y hay ejemplos de ello- revitalizarlas. En este contexto, los testimonios son fundamentales. Pero si esos testimonios van a proceder de operaciones computacionales sesgadas, la amenaza fosiliza la desaparición y puede reasegurar una extinción definitiva.

La alternativa es que, por una parte, los usuarios de Wikipedia adquieran conciencia de esta situación y definan posicionamientos y políticas lingüísticas de respeto, fiabilidad y monitoreo de las prácticas de traducción, dándole un espacio central a los hablantes y expertos nativos. A la par, serán necesarias políticas lingüísticas regulatorias de la IA para asegurar la fiabilidad en los algoritmos de traducción automática. Todo ello, en un marco de políticas lingüísticas institucionales, a nivel planetario, que aseguren la creación de recursos lingüísticos para todas las lenguas diseñados con la participación de expertos profesionales nativos de esas lenguas.  

Si no estamos dispuestos a aceptar la destrucción  del enorme  y plural patrimonio lingüístico de la humanidad, que acrecienta día a día nuestros conocimientos desde múltiples miradas y perspectivas (capacidades éstas únicas de nuestra especie), será insoslayable tomar conciencia de la importancia de la diversidad lingüística en todos los niveles de la vida social y comenzar a emplear las ilimitadas potencialidades de la IA para acrecentar, profundizar y proyectar ese patrimonio y el derecho a la libertad de expresión de todos los hombres. Porque la libertad de expresión comienza por el derecho a la lengua de los orígenes.

Temas Tucumán
Tamaño texto
Comentarios
Comentarios