كشفت شركة جوجل خلال مؤتمرها السنوي للمطورين Google I/O 2025 عن الجيل الثالث من نموذجها المتقدم لتوليد الفيديو عبر الذكاء الاصطناعي، Veo 3، والذي يمثل نقلة نوعية في عالم الفيديوهات الذكية، بفضل قدرته على توليد مؤثرات صوتية، وحوارات، وأصوات خلفية متزامنة مع المشاهد البصرية لأول مرة.
Veo 3 جوجل تفتح عصر الفيديو الناطق بالذكاء الاصطناعي
أكدت جوجل أن Veo 3 يمثل تطورًا هائلًا بالمقارنة مع الإصدار السابق Veo 2، ليس فقط على مستوى جودة الصورة، بل في قدرته على دمج الصوت بشكل طبيعي داخل الفيديو، ما يمنح المستخدم تجربة أكثر واقعية وتفاعلية.
Veo 3 جوجل تفتح عصر الفيديو الناطق بالذكاء الاصطناعي
متاح ضمن خطة AI Ultra المدفوعة
يتوفر Veo 3 بدءًا من الآن عبر تطبيق Gemini، حصريًا للمشتركين في خطة “AI Ultra” بسعر 250 دولارًا شهريًا، ويمكن تشغيله من خلال أوامر نصية أو عبر الصور.
توليد صوتي متكامل: حوارات، نبرات، ومؤثرات
بحسب “ديميس هاسابيس”، الرئيس التنفيذي لشركة DeepMind، الذراع البحثية للذكاء الاصطناعي في جوجل، فإن Veo 3 يسمح للمستخدم بـ:
تحديد شخصيات المشهد ومكان حدوثه.
اقتراح الحوارات المطلوبة.
تحديد نبرة الصوت، مثل الجدية أو الحماسة.
وأضاف: “نغادر اليوم عصر الفيديو الصامت، وندخل حقبة جديدة من المحتوى الذكي الناطق.”
تفوق تقني في التزامن بين الصورة والصوت
يتميز Veo 3 بقدرته على تحليل البكسلات وربطها تلقائيًا بالصوت المناسب بطريقة متزامنة، وهو ما يمنح الفيديوهات طابعًا واقعيًا عالي الجودة. وتعتمد هذه القدرات على خبرات DeepMind السابقة في توليد المؤثرات الصوتية القائمة على الذكاء الاصطناعي.
لمواجهة خطر الفيديوهات المزيفة (Deepfake)، تستخدم جوجل تقنية SynthID، والتي تُضمِّن علامات رقمية غير مرئية في كل إطار يتم توليده، مما يتيح التعرف على الفيديوهات المصنوعة بالذكاء الاصطناعي بسهولة ودقة.
وتؤكد جوجل أن هذه الميزات ستُتاح قريبًا عبر منصة Vertex AI خلال الأسابيع المقبلة.
مصادر البيانات: يوتيوب أحد الاحتمالات
ورغم عدم كشف جوجل عن المصادر المستخدمة في تدريب Veo 3، فإن التوقعات تشير إلى أن YouTube يُحتمل أن يكون مصدرًا رئيسيًا للبيانات، خصوصًا أن DeepMind كانت قد ألمحت سابقًا لإمكانية استخدام محتوى المنصة في تدريب نماذجها الذكية.