Advertising

GemMaroc: Darija'yı Yapay Zeka ile Bütünleştiren Fas Devrimi

15:00
GemMaroc: Darija'yı Yapay Zeka ile Bütünleştiren Fas Devrimi
Zoom

Fas, "Minimum Verilerle LLM'lerde Darija Yeterliliğinin Kilidini Açmak" başlıklı öncü bir çalışma olan GemMaroc'un lansmanıyla dil teknolojisi dünyasında önemli bir adım attı. Bu çalışma, dil modellerinin Fas lehçesi olan Darija'yı anlama ve üretme yeteneğini inceliyor.

Yapay zeka ve dilbilim alanında uzmanlaşmış bir grup Faslı araştırmacının liderliğindeki bu girişim, yerel dillerin dijital sistemlere entegrasyonunda gerçek bir devrim niteliğinde. GemMaroc, bilimsel bir projeden çok daha fazlası olarak, yapay zeka alanındaki küresel dil hakimiyeti karşısında teknolojik bir özgürleşme eylemi olarak öne çıkıyor.

Bu çalışmanın sonuçları etkileyici: Araştırmacılar, sadece iki günlük bir eğitimde, sınırlı veri kaynakları kullanarak Darija'yı olağanüstü bir doğrulukla anlayıp üretebilen bir model geliştirmeyi başardılar.

Özenle çevrilmiş ve seçilmiş cümlelerden oluşan küçük bir grup kullanan ekip, modelin İngilizce performansından ödün vermeden doğru yanıt oranında %33'ten %47'nin üzerine bir artış gözlemledi. En gelişmiş model olan GemMaroc-27B, Darija anlama testlerinde birçok uluslararası modeli bile geride bıraktı.

Çalışma önemli bir noktayı vurguluyor: Modelin başarısı veri hacmine değil, kalitesine ve çeşitliliğine bağlı. Araştırmacılar, modelin yerel bağlamın inceliklerini bütünleştirebilmesi için gerçek yaşam senaryolarını ve Fas yaşamını yansıtan günlük diyalogları (sözlü talimatlar, popüler ifadeler ve kültürel sorular) tercih ettiler.

Bir diğer önemli yenilik ise, bölgesel lehçelerin çeşitliliğinden kaynaklanan "dilsel gürültüyü" azaltmayı amaçlayan "yapılandırılmış bir Darija" dilinin oluşturulmasıydı. Bu yaklaşım, yapay zekanın daha tutarlı ve doğru yanıt vermesini sağlayarak Darija'da eğitim, idari ve dijital araçların tasarlanmasının önünü açtı.

Çalışma aynı zamanda temel bir zorluğun da altını çiziyor: Darija dilinin özünde sözlü olması nedeniyle bir yazım standardının olmaması. Bu sorunu çözmek için ekip, internette ve sosyal medyada Fas dil gerçekliğini yansıtmak için Arap ve Latin alfabeleriyle yazımı birleştiren hibrit bir yöntem benimsedi.

Son olarak, modelin beceri dengesini korumak için eğitim metinlerinin %20'si İngilizce olarak bırakıldı ve böylece sistemin matematik, muhakeme ve bağlamsal anlama alanlarındaki genel becerilerinin korunması sağlandı.

Fas, GemMaroc ile yapay zekanın dilsel entegrasyonunda öncü bir ülke olarak kendini kanıtlıyor ve en son teknolojinin yerel bir dile uyum sağlayıp onu kültürel ve sosyal inovasyon için bir araca dönüştürebileceğini kanıtlıyor. Bu proje, Darija dilinin nihayet dünyanın başlıca dilleriyle eşit bir şekilde makinelerin diline girdiği yeni bir çağın habercisi.



Devamını oku