كشفت شركة بايت دانس، المالكة لتطبيق تيك توك، عن نموذج ذكاء اصطناعي جديد يحمل اسم INFP، يهدف إلى تحويل الصور الشخصية الثابتة إلى مقاطع فيديو واقعية تتحدث وتتفاعل بشكل ديناميكي. هذه التقنية تمثل تطورًا جديدًا في استخدام الذكاء الاصطناعي لتقديم تجارب مرئية أكثر واقعية.
بايت دانس تقدم تقنية تحويل الصور إلى مقاطع فيديو تفاعلية
يتميز نموذج INFP بقدرته على إنشاء مقاطع فيديو تصور محادثات طبيعية بين شخصين دون الحاجة إلى تحديد أدوار التحدث والاستماع يدويًا. يعتمد النظام على تحليل تدفق المحادثة لتحديد الأدوار تلقائيًا، ما يضفي واقعية وديناميكية على التفاعل.
بايت دانس تقدم تقنية تحويل الصور إلى مقاطع فيديو تفاعلية
مرحلتان لتحويل الصور إلى فيديوهات حقيقية
تقليد حركات الرأس وتعابير الوجه
في المرحلة الأولى، يقوم النموذج بتحليل حركات الرأس وتعابير الوجه من مقاطع فيديو واقعية وتحويلها إلى بيانات قابلة للاستخدام، مما يسمح بتحريك الصور الثابتة بشكل دقيق ومطابق للطبيعة.
التوافق مع المدخلات الصوتية
في المرحلة الثانية، يحلل النظام الصوت لإنشاء أنماط حركة طبيعية للتحدث والاستماع، مع تعديل الحركات بحيث تتماشى مع إيقاع الصوت ونبرته، مما ينتج تجربة فيديو متكاملة ومقنعة.
قاعدة بيانات مبتكرة لتعزيز الدقة
لتحقيق أعلى مستويات الدقة، طورت بايت دانس قاعدة بيانات جديدة تُدعى DyConv، تحتوي على أكثر من 200 ساعة من محادثات حقيقية جُمعت من الإنترنت. تتميز هذه القاعدة بقدرتها على التقاط نطاق واسع من المشاعر الإنسانية بجودة فيديو تفوق قواعد بيانات أخرى مثل ViCo وRealTalk.
تفوق على الأدوات الحالية
أثبت نموذج INFP كفاءته مقارنة بالأدوات الموجودة في السوق، حيث يوفر:
تعد هذه التقنية جزءًا من إستراتيجية الذكاء الاصطناعي لدى بايت دانس. ومن المتوقع أن تجد طريقها إلى التطبيقات التابعة للشركة، مثل تيك توك وCapCut، لتقديم ميزات مبتكرة تُحدث ثورة في إنشاء المحتوى المرئي.
مع إطلاق INFP، تسهم بايت دانس في تطوير تقنيات الذكاء الاصطناعي لجعل التفاعل البشري مع الوسائط الرقمية أكثر واقعية، مما يفتح الأبواب أمام مستقبل جديد مليء بالإمكانات الإبداعية.