أعلنت شركة ميتا عن إطلاق نموذج الذكاء الاصطناعي الجديد “Spirit LM”، المصمم للتعامل مع التحديات المتعلقة بالنماذج متعددة الوسائط، وخاصة في مجال توليد الأصوات البشرية الطبيعية. يأتي هذا النموذج كخطوة جديدة نحو تطوير تقنيات تواصل صوتي أكثر تعقيدًا وواقعية.
ميتا تكشف عن نموذج الذكاء الاصطناعي Spirit LM لتقليد الأصوات البشرية
يهدف نموذج “Spirit LM” إلى تحسين تجربة التواصل الصوتي باستخدام الذكاء الاصطناعي، من خلال إنتاج أصوات بشرية طبيعية وذات تعبيرات غنية. ويعتمد على قاعدة بيانات تحتوي على 7 مليارات مَعلمة، مما يمنحه القدرة على فهم ومعالجة الأصوات بطرق جديدة تختلف عن النماذج التقليدية التي تعتمد فقط على تقنيات تعرّف الكلام التلقائي (ASR).
ميتا تكشف عن نموذج الذكاء الاصطناعي Spirit LM لتقليد الأصوات البشرية
وفقًا لميتا، فإن النهج التقليدي في معالجة الأصوات يفقد الكثير من التعبيرات الطبيعية. ولهذا، يعتمد “Spirit LM” على استخدام تقنيات متقدمة مثل رموز الفونيم (الوحدات الصوتية) والنغمات ودرجات الصوت، لتقديم تجربة صوتية أكثر واقعية وثراء. كما يمكنه التعلم من مهام جديدة تشمل تحويل النص إلى صوت وتصنيف الكلام وتعرّف الأصوات.
أعلنت ميتا عن إتاحة نموذج “Spirit LM” كمشروع مفتوح المصدر، مما يتيح للمطورين والباحثين استخدامه وتطويره. وتم تقديم هذا النموذج ضمن ورقة بحثية شملت تفاصيل عملية التطوير وعينات من قدرات النموذج الصوتية، التي تبين إمكاناته المستقبلية.
من المتوقع أن يتم دمج نموذج “Spirit LM” في تطبيقات ميتا المستقبلية مثل واتساب وإنستاجرام وفيسبوك، مما يتيح للمستخدمين التفاعل مع تقنيات الذكاء الاصطناعي من خلال محادثات صوتية طبيعية مليئة بالتعبيرات. يُعد هذا النموذج نقلة نوعية في مجال التفاعل الصوتي، مشابهة لتقنيات الصوت المتقدمة التي قدمتها شركة OpenAI مؤخرًا.