أعلنت شركة جوجل عن نموذج الذكاء الاصطناعي التوليدي. Veo التقنية التي يستطيع من خلالها إنتاج مقاطع فيديو عالية الجودة استنادًا إلى المطالبات النصية الخاصة بالمستخدمين، خلال فعاليات مؤتمر المطورين Google I/O 2024.
وفقًا لجوجل، يعتمد نموذج Veo على قدرته على فهم اللغة الطبيعية والرموز البصرية بطريقة متقدمة، مما يتيح إنشاء أي فيديو يتخيله المستخدمون.
يمكن إنشاء مقاطع فيديو عبر نموذج Veo لمدة تفوق دقيقة وبجودة 1080 بكسل، كما أنه يمتلك القدرة على فهم التقنيات السينمائية والبصرية مثل مفهوم الفاصل الزمني، وفقًا لما أعلنته جوجل.
وقامت جوجل بالتعاون مع المخرج دونالد جلوفر واستوديوهات Gilga لعرض قدرات نموذج Veo في تجسيد فيزياء العالم الحقيقي، وقد ظهر ذلك في فيديو ترويجي نشرته الشركة على يوتيوب.
سيكون نموذج Veo متاح اليوم كجزء من أداة VideoFX من قبل جوجل لبعض منشئي المحتوى، وسيتم إضافته أيضًا إلى يوتيوب Shorts ومنتجات أخرى تابعة للشركة.
أعلنت جوجل أيضاً عن نموذج Imagen 3 المتطور لتحويل النص إلى صورة، حيث تدعي الشركة أنه النموذج ذو “أعلى جودة” في هذا المجال، ويتميز بدرجة مذهلة من التفاصيل وصور واقعية تنبض بالحياة، وعدد قليل من الأخطاء.
وقالت جوجل إن نموذج Imagen 3 يتفاعل الآن بشكل أفضل مع النصوص، وأصبح أكثر ذكاءً في فهم التفاصيل في المطالبات الطويلة.
من ناحية أخرى، يتطلع المجتمع التقني إلى تجربة النماذج الجديدة من قوقل ومقارنة أداءها مع أداء نماذج شركة OpenAI المنافسة التي تمتلك نموذج Sora لتحويل النص إلى فيديو، ونموذج DALL-E 3 لتحويل النص إلى صور.