أعلنت شركة أمازون عن إطلاق نموذجها الجديد Nova Sonic، وهو نموذج ذكاء اصطناعي توليدي متقدّم متخصص في التعامل مع الصوت بشكل مباشر، ويهدف إلى توليد محادثات طبيعية تحاكي التفاعل البشري الحقيقي. ويُعد هذا الابتكار بمثابة استجابة متطورة من أمازون للنماذج الصوتية الحديثة التي بدأت تكتسب شعبية، مثل وضع الصوت في ChatGPT من OpenAI.
أمازون تعزز سباق الذكاء الاصطناعي بنموذج صوتي متطور Nova Sonic
بحسب تصريحات أمازون، فإن Nova Sonic يتمتع بكفاءة عالية في مجالات السرعة، دقة التعرف على الكلام، وجودة التفاعل، ليصبح بذلك منافسًا مباشرًا للنماذج الصوتية المتقدمة من OpenAI وجوجل. ويأتي ذلك في وقتٍ بدأت فيه المساعدات الصوتية التقليدية مثل أليكسا وسيري تفقد بريقها أمام التطورات السريعة في الذكاء الاصطناعي.

أمازون تعزز سباق الذكاء الاصطناعي بنموذج صوتي متطور Nova Sonic
إمكانات متقدمة وتكلفة منخفضة
يتوفر Nova Sonic عبر منصة Amazon Bedrock الموجهة للمطورين، مع دعم لواجهة برمجة تطبيقات (API) جديدة تتيح بثًا صوتيًا ثنائي الاتجاه. وقد وصفت أمازون النموذج بأنه “الأكثر كفاءة من حيث التكلفة” في السوق، إذ تقل تكلفته بنسبة تصل إلى 80% مقارنة بنموذج GPT-4o من OpenAI.
تعزيز تجربة أليكسا بلس
أكد روهيت براساد، النائب الأول لرئيس أمازون وكبير علماء الذكاء الاصطناعي العام، أن تقنيات Nova Sonic تُستخدم حاليًا في تشغيل Alexa Plus، النسخة المحسّنة من مساعد أمازون الصوتي، التي تتيح تفاعلًا أكثر واقعية من خلال القدرة على الاستجابة في الوقت المناسب، ورصد المقاطعات أو فترات الصمت أثناء الحوار.
دقة فائقة في التعرف على الكلام
يتميز Nova Sonic بدقة عالية في فهم كلام المستخدم، حتى في ظل وجود ضوضاء أو همسات غير واضحة. فقد سجل النموذج معدل خطأ قدره 4.2% في اختبار Multilingual LibriSpeech الذي يقيس الأداء عبر لغات مختلفة، كما تفوق بنسبة 46.7% على نموذج GPT-4o-transcribe من OpenAI في اختبار الحوارات الجماعية متعددة الأطراف.
استجابة أسرع من المنافسين
أظهرت اختبارات مؤسسة Artificial Analysis أن Nova Sonic يحقق استجابة صوتية بمتوسط تأخير يبلغ 1.09 ثانية فقط، ما يجعله أسرع من نموذج Realtime API من OpenAI، الذي سجل 1.18 ثانية في المتوسط.
جزء من رؤية شاملة للذكاء الاصطناعي العام
يندرج Nova Sonic ضمن خطة أمازون الكبرى لتطوير الذكاء الاصطناعي العام (AGI)، والذي تصفه الشركة بأنه “الذكاء القادر على أداء جميع المهام التي يستطيع الإنسان تنفيذها عبر الحاسوب”. وتطمح أمازون إلى توسيع قدرات الذكاء الاصطناعي ليشمل التفاعل مع وسائط متعددة مثل الصوت، الفيديو، الصور، بل وحتى البيانات الحسية.
نحو مستقبل ذكي وشامل
ويأتي هذا النموذج في سياق توسع سريع في قسم الذكاء الاصطناعي لدى أمازون، الذي أطلق أيضًا مؤخرًا نموذج Nova Act لتنفيذ المهام داخل المتصفح، وخدمة “اشترِ نيابة عني” للتسوق التلقائي، إلى جانب نموذج Nova Reel المخصص لتوليد مقاطع الفيديو.