Hébergement personnel
CultureEconomieFranceMarocMondeMRESciencesSportUncategorized

Des chercheurs marocains et internationaux développent Atlas-Chat, la première IA en Darija


Une équipe de chercheurs du Maroc et d’ailleurs a développé les premiers grands modèles de langage spécifiquement conçus pour le Darija, l’arabe marocain. Nommé «Atlas-Chat», ce modèle d’IA est un clin d’œil aux montagnes de l’Atlas, symbolisant le Maroc.

Atlas-Chat est capable de comprendre et de parler le Darija. Dans un article de recherche publié sur ResearchGate en septembre, intitulé «Atlas-Chat : Adapter les grands modèles de langage pour le dialecte arabe marocain à faibles ressources», les chercheurs expliquent que le modèle a été développé en intégrant des ressources linguistiques existantes en Darija, en créant de nouveaux ensembles de données et en traduisant soigneusement les instructions en anglais.

Atlas-Chat-9B response example 2 (The model can understand English instructions but only responds in Darija)Exemple de réponse d’Atlas-Chat-9B 2 (Le modèle peut comprendre les instructions en anglais mais ne répond qu’en Darija)

L’article souligne également que leurs modèles, «Atlas-Chat-9B et Atlas-Chat-2B», surpassent d’autres modèles de langage spécialisés en arabe de pointe, y compris LLaMa, Jais et AceGPT dans le suivi des instructions en Darija. Les modèles Atlas-Chat peuvent également effectuer des tâches standard de traitement du langage naturel (NLP), qui incluent l’interprétation, la manipulation et la compréhension du langage humain.

Leurs résultats montrent également qu’Atlas-Chat a atteint une «augmentation de performance de 13 % par rapport à un modèle plus grand de 13B sur DarijaMMLU», une nouvelle suite d’évaluation pour la Darija qui couvre à la fois des tâches discriminatives et génératives.

La Darija et les langues à faibles ressources

L’étude observe également que bien que les grands modèles de langage excellent dans la compréhension et l’utilisation des langues majeures, ils ont souvent du mal avec les langues sous-représentées, en particulier les dialectes arabes comme la Darija. Cela est principalement dû au fait que bien que l’arabe bénéficie d’une riche histoire culturelle et d’une structure linguistique complexe, la plupart des efforts pour développer des modèles spécialisés en arabe se concentrent sur le bilinguisme—équilibrant l’anglais et l’arabe standard moderne (MSA)—tout en négligeant souvent l’arabe dialectal (DA).

Bien que l’arabe dialectal soit parlé par des millions de personnes, il y a un manque de données disponibles pour entraîner de grands modèles de langage pour celui-ci. Pour y remédier, les chercheurs ont créé de nouveaux ensembles de données et des tests d’évaluation spécifiquement pour le DA.

Atlas-Chat-9B response example 1.Exemple de réponse d’Atlas-Chat-9B 1.

La recherche a été menée par des chercheurs de l’Université Mohamed bin Zayed d’intelligence artificielle, de l’École des Mines de Rabat, de l’Université Mohammed VI Polytechnique, du KTH Royal Institute of Technology, de l’Atlas Institute for Artificial Intelligence et de l’École Polytechnique.

Pour inspirer le développement de modèles similaires pour d’autres langues à faibles ressources, les chercheurs ont rendu toutes leurs ressources disponibles au public.





Source link

Articles connexes

Le Maroc déjoue un plan algérien désespéré lors de la session du Parlement international à Genève

klayen

Arythmie cardiaque… des développements thérapeutiques basés sur des médicaments et des dispositifs médicaux

klayen

Un suivi analytique réaliste et une analyse politique stratégique confirment que le conflit autour du Sahara marocain est terminé

klayen