أعلنت علي بابا كلاود عن طرح نموذجين جديدين من سلسلة Qwen3 للذكاء الاصطناعي، في خطوة تهدف إلى توسيع قدرات الشركة في مجال تقنيات الصوت الرقمية، ودعم الاستخدامات الاحترافية في صناعة المحتوى والتطبيقات الصوتية. وتركّز النماذج الجديدة على تحويل الأوامر النصية إلى أصوات واقعية، إلى جانب استنساخ الأصوات البشرية بدقة عالية.
علي بابا تعزّز حضورها في تقنيات الصوت بإطلاق نماذج ذكاء اصطناعي متقدمة لتوليد الأصوات واستنساخها
علي بابا تعزّز حضورها في تقنيات الصوت بإطلاق نماذج ذكاء اصطناعي متقدمة لتوليد الأصوات واستنساخها
يحمل النموذج الأول اسم Qwen3-TTS-VD-Flash، وهو مصمم لإنشاء أصوات جديدة اعتمادًا على أوصاف نصية تفصيلية يحددها المستخدم. ويتيح النموذج التحكم في عناصر متعددة، مثل نبرة الصوت، والحالة العاطفية، وسرعة الإلقاء، وحتى السمات العامة للصوت كالعمر ونوعه والأسلوب المستخدم.
ووفقًا لما ذكرته الشركة، يمنح هذا المستوى من التخصيص المستخدمين مرونة واسعة في تصميم الأصوات بما يتناسب مع مختلف السيناريوهات الإبداعية، من الإعلانات إلى المحتوى التفاعلي، مؤكدة أن أداء النموذج يتفوق على بعض الحلول المنافسة المطروحة حاليًا في السوق.
استنساخ الصوت خلال ثوانٍ وباللغات المتعددة
أما النموذج الثاني، Qwen3-TTS-VC-Flash، فيركّز على استنساخ الأصوات البشرية. ويستطيع هذا النموذج نسخ صوت شخص اعتمادًا على عيّنة صوتية قصيرة لا تتجاوز ثلاث ثوانٍ، ثم إعادة إنتاجه بلغات متعددة تصل إلى عشر لغات مختلفة، مع الحفاظ على الخصائص الصوتية الأصلية.
وتشير علي بابا إلى أن النموذج يحقق معدلات أخطاء أقل مقارنة بعدد من أبرز المنافسين في مجال استنساخ الصوت، ما يجعله خيارًا جذابًا للتطبيقات التي تتطلب دقة عالية في محاكاة الأصوات.
إلى جانب المهام الأساسية، تتمتع نماذج Qwen3 الجديدة بقدرات إضافية، تشمل التعامل مع نصوص معقدة، وتقليد أصوات غير بشرية مثل أصوات الحيوانات، فضلًا عن إمكانية استخراج الأصوات من تسجيلات صوتية متعددة الطبقات، وهو ما يفتح المجال أمام استخدامات أكثر تنوعًا في الإنتاج الصوتي.
إتاحة عبر السحابة وتجارب مفتوحة للمطورين
أوضحت علي بابا أن النماذج الجديدة متاحة حاليًا عبر واجهة برمجة التطبيقات (API) الخاصة بمنصة علي بابا كلاود، كما وفّرت نسخًا تجريبية منها على منصة Hugging Face، في إطار سعيها إلى جذب المطورين وتسريع تبني هذه التقنيات ضمن التطبيقات التجارية والإبداعية.
يأتي إطلاق نماذج Qwen3 في وقت تشهد فيه سوق توليد الأصوات بالذكاء الاصطناعي منافسة متزايدة، مدفوعة بالطلب المتنامي من قطاعات مثل الإعلانات الرقمية، وصناعة الألعاب، وإنتاج الفيديو، والتعليم الإلكتروني.
وتفتح هذه النماذج المجال أمام استخدامات متعددة، من بينها الدبلجة متعددة اللغات، وإنتاج الإعلانات الصوتية، وبناء شخصيات صوتية للألعاب، ودعم مراكز الاتصال ومنصات التعليم عن بُعد، مع تقليل التكاليف والوقت مقارنة بأساليب التسجيل التقليدية، ما يعكس توجهًا متسارعًا نحو أتمتة الإنتاج الصوتي بالذكاء الاصطناعي.