تعمل مجموعة علي بابا الصينية على تطوير أداة مبتكرة لتوليد الفيديوهات باستخدام الذكاء الاصطناعي تحت اسم أداة Tora وتعتمد هذه الأداة على نموذج Sora مفتوح المصدر الذي طُور بواسطة شركة OpenAI ووفقا لما ذكره فريق من باحثي علي بابا تم تطوير Tora بالاستناد إلى نموذج OpenSora وهو إطار يسمح بإنشاء فيديوهات عبر أوامر نصية وقد نشرت تفاصيل هذه الأداة في ورقة بحثية الأسبوع الماضي من قبل خمسة باحثين من الشركة.
في تطوير أداة Tora اعتمد الباحثون على هيكلية تدعى Diffusion Transformer DiT وهي التقنية التي تشغل نموذج Sora وهذه التقنية تمكن من توليد فيديوهات تعتمد على توجيه حركة العناصر داخل المشاهد مثل تحريك شخص يقود دراجة على مسار محدد مع مراعاة العوامل التي تؤثر على حركة العناصر في العالم الحقيقي وأوضح الباحثون أن المشروع ما زال قيد التطوير ولم يحدد بعد موعد إتاحة الأداة للجمهور.
وتأتي هذه الخطوة من علي بابا كجزء من مساعيها لمنافسة الأدوات الغربية في مجال توليد الفيديوهات بالذكاء الاصطناعي وتسعى الشركة لتقديم حلول مبتكرة محلية وفي وقت سابق من هذا العام كشفت علي بابا عن نموذج آخر يسمى Emote Portrait Alive (EMO) الذي يحول ملف صوتي مصحوبًا بصورة لشخص إلى فيديو يظهر فيه الشخص يتحدث أو يغني بصوته الحقيقي.
ويتميز هذا النموذج بقدرته العالية على تحويل الصوت إلى فيديو دون الحاجة لاستخدام نماذج ثلاثية الأبعاد للوجه مما يجعله أسرع وأكثر كفاءة كما يتيح EMO أيضا محاكاة دقيقة لحركات الوجه مع نطق الكلمات وحركة الشفاه والعينين مما يضفي واقعية كبيرة على الفيديو فضلا عن توفير تحكم كامل في زوايا حركة الرأس.
وتم تدريب النموذج على 250 ساعة من الفيديوهات لأشخاص يتحدثون ويغنون ما ساعده في التقاط الفروق الدقيقة في تعابير الوجه البشرية.
لم تتطرق الورقة البحثية إلى ارتباط أداة Tora بأدوات أخرى طورتها علي بابا مثل EMO أو Tongyi Qianwen وهي عائلة من النماذج اللغوية الكبيرة كما تعد Tora خطوة أخرى في سلسلة محاولات علي بابا لمنافسة نموذج Sora خاصة بعد أن أطلقت شركة Shengshu AI الصينية الناشئة في يوليو نموذجها الخاص Vidu الذي يتيح للمستخدمين إنشاء مقاطع فيديو قصيرة.