Des chercheurs marocains et internationaux développent Atlas-Chat, la première IA en Darija

Une équipe de chercheurs du Maroc et d’ailleurs a développé les premiers grands modèles de langage spécifiquement conçus pour le Darija, l’arabe marocain. Nommé «Atlas-Chat», ce modèle d’IA est un clin d’œil aux montagnes de l’Atlas, symbolisant le Maroc.

Atlas-Chat est capable de comprendre et de parler le Darija. Dans un article de recherche publié sur ResearchGate en septembre, intitulé «Atlas-Chat : Adapter les grands modèles de langage pour le dialecte arabe marocain à faibles ressources», les chercheurs expliquent que le modèle a été développé en intégrant des ressources linguistiques existantes en Darija, en créant de nouveaux ensembles de données et en traduisant soigneusement les instructions en anglais.

Atlas-Chat-9B response example 2 (The model can understand English instructions but only responds in Darija) Exemple de réponse d’Atlas-Chat-9B 2 (Le modèle peut comprendre les instructions en anglais mais ne répond qu’en Darija)

L’article souligne également que leurs modèles, «Atlas-Chat-9B et Atlas-Chat-2B», surpassent d’autres modèles de langage spécialisés en arabe de pointe, y compris LLaMa, Jais et AceGPT dans le suivi des instructions en Darija. Les modèles Atlas-Chat peuvent également effectuer des tâches standard de traitement du langage naturel (NLP), qui incluent l’interprétation, la manipulation et la compréhension du langage humain.

Leurs résultats montrent également qu’Atlas-Chat a atteint une «augmentation de performance de 13 % par rapport à un modèle plus grand de 13B sur DarijaMMLU», une nouvelle suite d’évaluation pour la Darija qui couvre à la fois des tâches discriminatives et génératives.

La Darija et les langues à faibles ressources

L’étude observe également que bien que les grands modèles de langage excellent dans la compréhension et l’utilisation des langues majeures, ils ont souvent du mal avec les langues sous-représentées, en particulier les dialectes arabes comme la Darija. Cela est principalement dû au fait que bien que l’arabe bénéficie d’une riche histoire culturelle et d’une structure linguistique complexe, la plupart des efforts pour développer des modèles spécialisés en arabe se concentrent sur le bilinguisme—équilibrant l’anglais et l’arabe standard moderne (MSA)—tout en négligeant souvent l’arabe dialectal (DA).

Bien que l’arabe dialectal soit parlé par des millions de personnes, il y a un manque de données disponibles pour entraîner de grands modèles de langage pour celui-ci. Pour y remédier, les chercheurs ont créé de nouveaux ensembles de données et des tests d’évaluation spécifiquement pour le DA.

Atlas-Chat-9B response example 1. Exemple de réponse d’Atlas-Chat-9B 1.

La recherche a été menée par des chercheurs de l’Université Mohamed bin Zayed d’intelligence artificielle, de l’École des Mines de Rabat, de l’Université Mohammed VI Polytechnique, du KTH Royal Institute of Technology, de l’Atlas Institute for Artificial Intelligence et de l’École Polytechnique.

Pour inspirer le développement de modèles similaires pour d’autres langues à faibles ressources, les chercheurs ont rendu toutes leurs ressources disponibles au public.

Source link

Mre News

Des chercheurs marocains et internationaux développent Atlas-Chat, la première IA en Darija

klayen

Le Maroc est dur pour le Mali par trois et la demi-finale de la Coupe des Nations africaines pour les...

Le Maroc bat le Mali et se qualifie pour les demi-finales

La combustion de l’entrepôt « codifié » avec un métaphysique se leva et révèle la fragilité du système de rationnement

Derk, Sir Zaid, renverse un réseau de prostitution

Un Hackathon national appuie la digitalisation pour 4 ONG locales

Transition écologique : SAHAM BANK mobilise 55 M€ via la BERD

L’arrestation de deux personnes et la saisie des quantités de la drogue Shira

Articles connexes