أعلنت شركة Google خلال مؤتمر Google I/O 2026 عن نموذج ذكاء اصطناعي جديد يحمل اسم Gemini Omni، والذي تصفه بأنه نظام قادر على “إنشاء أي شيء انطلاقًا من أي نوع من المدخلات”، مع تركيز رئيسي على إنتاج مقاطع فيديو متكاملة باستخدام النصوص والصور والصوت وحتى الفيديوهات المصورة مسبقًا.
يمثل Gemini Omni تطورًا جديدًا مقارنةً بأدوات جوجل السابقة مثل:
Nano Banana
Veo 3.1
إذ يتيح للمستخدم دمج النصوص والصور والصوت ومقاطع الفيديو داخل طلب واحد لإنتاج فيديوهات عالية الجودة تعتمد على فهم Gemini للعالم الحقيقي.
وبينما كان نموذج Veo 3.1 يعتمد بصورة أساسية على الأوامر النصية والصور، يوفر Gemini Omni نطاقًا أوسع من التفاعل، مع إمكانية تعديل الفيديوهات عبر محادثة طبيعية مستمرة.
تعديل المشاهد والحفاظ على اتساق العناصر
تؤكد جوجل أن النموذج قادر على الحفاظ على اتساق الشخصيات والعناصر داخل الفيديو حتى عند تنفيذ تعديلات متتابعة.
فعلى سبيل المثال، يمكن للمستخدم تصوير فيديو عادي ثم مطالبة Gemini Omni بإجراء تغييرات مثل:
وذلك بالاعتماد على عينات صوتية وصور شخصية يقدّمها المستخدم.
لكن هذه الإمكانية تثير مخاوف متعلقة بالخصوصية وتقنيات “التزييف العميق”، وهو ما دفع جوجل للتأكيد على أنها تطبق سياسات واضحة للحد من إساءة الاستخدام، إضافة إلى اختبار أدوات متقدمة للتحكم في تعديل الصوت والكلام قبل التوسع في طرحها.
علامة مائية رقمية لمقاطع الفيديو
أكدت جوجل أن جميع الفيديوهات المُنشأة عبر Gemini Omni ستحتوي على العلامة المائية الرقمية SynthID، بهدف تسهيل التحقق من أن المحتوى مُنتج باستخدام الذكاء الاصطناعي.
الأداء الحقيقي لا يزال تحت الاختبار
ورغم التطور الكبير الذي تعد به جوجل، فإن جودة الفيديوهات المولدة بالذكاء الاصطناعي ما تزال تواجه انتقادات متكررة بسبب ظهور بعض المشاهد بصورة غير طبيعية أو غير متناسقة أحيانًا.