Une équipe de chercheurs du Maroc et d’ailleurs a développé les premiers grands modèles de langage spécifiquement conçus pour le Darija, l’arabe marocain. Nommé «Atlas-Chat», ce modèle d’IA est un clin d’œil aux montagnes de l’Atlas, symbolisant le Maroc.
Atlas-Chat est capable de comprendre et de parler le Darija. Dans un article de recherche publié sur ResearchGate en septembre, intitulé «Atlas-Chat : Adapter les grands modèles de langage pour le dialecte arabe marocain à faibles ressources», les chercheurs expliquent que le modèle a été développé en intégrant des ressources linguistiques existantes en Darija, en créant de nouveaux ensembles de données et en traduisant soigneusement les instructions en anglais.
Exemple de réponse d’Atlas-Chat-9B 2 (Le modèle peut comprendre les instructions en anglais mais ne répond qu’en Darija)
L’article souligne également que leurs modèles, «Atlas-Chat-9B et Atlas-Chat-2B», surpassent d’autres modèles de langage spécialisés en arabe de pointe, y compris LLaMa, Jais et AceGPT dans le suivi des instructions en Darija. Les modèles Atlas-Chat peuvent également effectuer des tâches standard de traitement du langage naturel (NLP), qui incluent l’interprétation, la manipulation et la compréhension du langage humain.
Leurs résultats montrent également qu’Atlas-Chat a atteint une «augmentation de performance de 13 % par rapport à un modèle plus grand de 13B sur DarijaMMLU», une nouvelle suite d’évaluation pour la Darija qui couvre à la fois des tâches discriminatives et génératives.
La Darija et les langues à faibles ressources
L’étude observe également que bien que les grands modèles de langage excellent dans la compréhension et l’utilisation des langues majeures, ils ont souvent du mal avec les langues sous-représentées, en particulier les dialectes arabes comme la Darija. Cela est principalement dû au fait que bien que l’arabe bénéficie d’une riche histoire culturelle et d’une structure linguistique complexe, la plupart des efforts pour développer des modèles spécialisés en arabe se concentrent sur le bilinguisme—équilibrant l’anglais et l’arabe standard moderne (MSA)—tout en négligeant souvent l’arabe dialectal (DA).
Bien que l’arabe dialectal soit parlé par des millions de personnes, il y a un manque de données disponibles pour entraîner de grands modèles de langage pour celui-ci. Pour y remédier, les chercheurs ont créé de nouveaux ensembles de données et des tests d’évaluation spécifiquement pour le DA.
Exemple de réponse d’Atlas-Chat-9B 1.
La recherche a été menée par des chercheurs de l’Université Mohamed bin Zayed d’intelligence artificielle, de l’École des Mines de Rabat, de l’Université Mohammed VI Polytechnique, du KTH Royal Institute of Technology, de l’Atlas Institute for Artificial Intelligence et de l’École Polytechnique.
Pour inspirer le développement de modèles similaires pour d’autres langues à faibles ressources, les chercheurs ont rendu toutes leurs ressources disponibles au public.