-
17:15
-
16:30
-
15:44
-
15:00
-
14:15
-
13:39
-
13:00
-
12:15
-
11:30
关注我们在 Facebook 上
GemMaroc:摩洛哥语言革命:将达里贾语融入人工智能
摩洛哥刚刚启动了GemMaroc项目,在语言技术领域迈出了重要一步。GemMaroc是一项开创性的研究,名为“用最少的数据解锁法学硕士阶段的达里贾语能力”,旨在探索语言模型理解和生成摩洛哥方言达里贾语的能力。
这项由摩洛哥人工智能和语言学专家团队领导的计划,标志着将当地语言融入数字系统的真正革命。GemMaroc不仅仅是一个科学项目,更是在人工智能领域全球语言主导的背景下,展现出的技术解放。
这项研究的成果令人印象深刻:仅需两天的训练,研究人员就成功开发出一个能够利用有限数据资源,以惊人的精度理解和生成达里贾语的模型。
通过使用精心翻译和筛选的句子组成的小型语料库,研究团队观察到正确率从 33% 提升至 47% 以上,且模型的英语表达能力丝毫不受影响。最先进的模型 GemMaroc-27B 甚至在达里贾语理解测试中超越了多个国际模型。
这项研究强调了一个关键点:模型的成功并非取决于数据量,而是取决于数据的质量和多样性。研究人员倾向于选择反映摩洛哥生活的真实场景和日常对话——例如口头指示、流行表达和文化问题——以便模型能够融入当地语境的微妙之处。
另一项重大创新是创建了一种“结构化达里贾语”语言,旨在减少由方言多样性造成的“语言噪音”。这种方法使人工智能能够更一致、更准确地做出响应,为达里贾语教育、行政和数字工具的设计铺平了道路。
这项研究还强调了一个根本性的挑战:由于Darija语言本质上是口语,因此缺乏书写标准。为了解决这个问题,团队采用了一种混合方法,将阿拉伯语和拉丁字母的书写方式结合起来,以反映摩洛哥在互联网和社交媒体上的语言现实。
最后,为了保持模型的技能平衡,20%的训练文本保留了英语,以确保系统在数学、推理和语境理解方面的整体技能得以保留。
凭借GemMaroc,摩洛哥正在成为人工智能语言包容性的先驱,证明尖端技术可以适应当地语言,并将其转化为文化和社会创新的工具。这个项目预示着一个新时代的到来,Darija最终将进入机器语言领域,与世界主要语言平起平坐。