Durante la participación de Inria Chile en la última edición del Congreso Tecnológico Indígena, fue revelado un importante avance del proyecto que busca traducir de manera automática desde el mapudungún al español, llamado Human-AI Ensembled Machine Translation for Underrepresented Languages (Huemul).
Huemul, desarrollado por Inria Chile y liderado por Nayat Sánchez-Pi, Directora de Inria Chile y Luis Martí, Director Científico de Inria Chile, fue presentado en el Congreso por Hernán Lira, AI Researcher & Data Scientist de Inria Chile, explicando que el proyecto busca contribuir a la preservación del mapudungún.
Una de las particularidades de la iniciativa es que fueron incluidas comunidades mapuches para el desarrollo y validación del modelo, lo que ha permitido la inclusión de grupos vulnerables en temas de IA, no solo beneficiando a comunidades indígenas, sino también hacerlas co-creadoras de tecnología.
Verbatim
El desarrollo de la inteligencia artificial ha estado fuertemente influenciado por el predominio de los países de habla inglesa, en particular Estados Unidos y el Reino Unido. Este predominio ha llevado a una subrepresentación significativa de muchos idiomas en la investigación y el desarrollo de la IA. Los sistemas de IA entrenados con datos predominantemente en idioma inglés pueden presentar sesgos culturales que no son relevantes para otros idiomas y culturas. Este es el caso de nuestro proyecto que contribuye a que se preserve el patrimonio cultural de los Pueblos Indígenas y Originarios, como es el caso de lenguas como el Mapudungun.
Directora de Inria Chile
Los esfuerzos para preservar una lengua en riesgo
Una de las principales dificultades del proyecto está en que el mapudungún, históricamente, se ha transmitido de forma oral y con muy poco respaldo escrito en formato digital. También se suma un concepto clave en este proyecto, el cual es el "corpus", un conjunto de textos que se utiliza para entrenar sistemas de IA. Para crear un traductor eficiente, se requiere un conjunto de datos con frases en español junto con el mapudungún y sus traducciones.
Sin embargo, el mapudungún tiene poca documentación digitalizada, lo que dificulta la formación de un corpus amplio y estandarizado. Además, su complejidad morfológica—siendo polisintético y aglutinante—complica aún más la tarea de los modelos de IA para realizar traducciones precisas.
Aún así, el proyecto Huemul de Inria Chile ha apostado por un enfoque basado en redes neuronales para superar estos desafíos. Estas redes, que son capaces de aprender patrones al analizar grandes cantidades de datos, permiten a los modelos de IA "entender" los lenguajes con los que trabajan. En este caso, se utiliza una técnica llamada aprendizaje por transferencia, donde un modelo de IA es entrenado inicialmente con un corpus grande de una lenguas con muchos recursos, como el español y el inglés y luego se ajusta para trabajar con lenguas de pocos recursos, como el mapudungún. Este enfoque reduce la necesidad de tener grandes volúmenes de datos en mapudungún, lo cual es esencial dada la escasez de textos en este idioma y sus complejidades lingüísticas, dada sus estructuras polisintéticas y aglutinantes.
En los experimentos realizados, se incluyó un corpus extenso compuesto por 260.000 frases derivadas de conversaciones en mapudungún, donde los investigadores probaron diferentes configuraciones para entender cómo mejorar las traducciones. Se plantearon preguntas como: ¿Es necesario que el idioma objetivo del modelo pre-entrenado (en este caso inglés) tenga características similares al mapudungún para que el modelo funcione mejor? Para responder a esto, se compararon modelos entrenados con lenguas aglutinantes como el finlandés, y otros con lenguas no aglutinantes como el inglés.
Resultados y accesos al proyecto
Los resultados preliminares del proyecto son alentadores, sugiriendo que el aprendizaje por transferencia es una herramienta poderosa para mejorar la calidad de la traducción entre español y mapudungún, y que la similitud estructural entre lenguas no es un factor determinante en este caso, por otra parte también se observó una mejora significativa en la calidad de las traducciones utilizando el enfoque de aprendizaje por transferencia.
Como parte del proyecto, se ha desarrollado una aplicación web que permite a los usuarios introducir texto en español para obtener su traducción al mapudungún y está disponible de forma gratuita en la plataforma Hugging Face.