Un equipo de investigadores de Marruecos y otros lugares ha desarrollado los primeros modelos lingüísticos importantes diseñados específicamente para darija, el árabe marroquí. Llamado «Atlas-Chat», este modelo de IA es un guiño a las montañas del Atlas, que simbolizan Marruecos.
Atlas-Chat puede entender y hablar darija. En un artículo de investigación publicado en ResearchGate en septiembre, titulado “Atlas-Chat: Adaptación de modelos de lenguaje grandes para el dialecto árabe marroquí de bajos recursos”, los investigadores explican que el modelo se desarrolló integrando recursos lingüísticos existentes en darija, creando nuevos conjuntos de datos y traduciendo cuidadosamente las instrucciones al inglés.
Ejemplo de respuesta de Atlas-Chat-9B 2 (El modelo puede entender instrucciones en inglés pero solo responde en darija)
El artículo también destaca que sus modelos, “Atlas-Chat-9B y Atlas-Chat-2B”, superan a otros modelos especializados en idioma árabe de última generación, incluidos LLaMa, Jais y AceGPT, en el seguimiento de instrucciones en darija. Los modelos Atlas-Chat también pueden realizar tareas estándar de procesamiento del lenguaje natural (PLN), que incluyen interpretar, manipular y comprender el lenguaje humano.
Sus resultados también muestran que Atlas-Chat logró un “aumento de rendimiento del 13% con respecto a un modelo 13B más grande en DarijaMMLU”, un nuevo conjunto de referencia para Darija que cubre tanto discriminativo como generativo.
Darija y lenguas de bajos recursos
El estudio también observa que, aunque los principales modelos de habla destacan en la comprensión y el uso de las lenguas principales, a menudo tienen dificultades con las lenguas subrepresentadas, en particular los dialectos árabes como el darija. Esto se debe principalmente a que, aunque el árabe se beneficia de una rica historia cultural y una estructura lingüística compleja, la mayoría de los esfuerzos para desarrollar modelos especializados en árabe se centran en el bilingüismo (equilibrando el inglés y el árabe estándar moderno (MSA), mientras que a menudo descuidan el árabe dialectal (DA).
Aunque millones de personas hablan árabe dialectal, faltan datos disponibles para entrenar grandes modelos lingüísticos para él. Para abordar esto, los investigadores crearon nuevos conjuntos de datos y pruebas de evaluación específicamente para la EA.
Ejemplo de respuesta de Atlas-Chat-9B 1.
La investigación fue realizada por investigadores de la Universidad de Inteligencia Artificial Mohamed bin Zayed, la Escuela de Minas de Rabat, la Universidad Politécnica Mohammed VI, el Real Instituto de Tecnología KTH, el Instituto Atlas de Inteligencia Artificial y la Escuela Politécnica.
Para inspirar el desarrollo de modelos similares para otros idiomas de bajos recursos, los investigadores han puesto todos sus recursos a disposición del público.