الذكاء الاصطناعي

سباق الذكاء الاصطناعي في عالم الألعاب هل تتفوق نماذج Google وAnthropic وMeta

Published

on

في الأسبوع الماضي، أثار منشور على منصة إكس (تويتر سابقًا) تفاعلاً واسعًا بعد أن ادعى أن نموذج جيميني من غوغل تغلب على نموذج كلود من شركة أنثروبيك في ثلاثية لعبة بوكيمون الأصلية. فقد وصل جيميني إلى منطقة “لافندر تاون” الشهيرة، بينما كان كلود لا يزال عالقًا في “جبل مون”، وذلك خلال بث مباشر لمطور على منصة تويتش، بحسب ما ذكره موقع TechCrunch.

سباق الذكاء الاصطناعي في عالم الألعاب هل تتفوق نماذج Google وAnthropic وMeta

لفت مستخدمو موقع Reddit الانتباه إلى أن المطور الذي يقف وراء جيميني أنشأ خريطة مصغّرة مخصصة تساعد النموذج على التعرف على العناصر داخل اللعبة، مثل الأشجار القابلة للقطع، مما يقلل من اعتماده على تحليل لقطات الشاشة ويُسرّع اتخاذ قراراته داخل اللعبة.

سباق الذكاء الاصطناعي في عالم الألعاب هل تتفوق نماذج Google وAnthropic وMeta

بوكيمون تصبح مقياسًا جديدًا لاختبار الذكاء الاصطناعي

رغم أن استخدامها لا يُعد معيارًا رسميًا، إلا أن لعبة بوكيمون أصبحت رمزًا غير تقليدي لقياس قدرات الذكاء الاصطناعي في تحليل السياقات التفاعلية واتخاذ القرار السريع.

Claude 3.7 Sonnet يحقق تقدماً في اختبارات SWE-bench

وفي الجهة الأخرى، أكدت شركة Anthropic أن نموذجها Claude 3.7 Sonnet حقق دقة بنسبة 62.3% في اختبار SWE-bench Verified، المخصص لتقييم كفاءة النماذج في مهام البرمجة.
وعند استخدام أداة مخصصة طورتها الشركة، ارتفعت دقة النموذج إلى 70.3%، ما يُظهر تأثير الأدوات الداعمة على كفاءة الأداء.

تحسين أداء Llama 4 من Meta في اختبار LM Arena

كما دخلت شركة Meta على خط المنافسة، بعد تحسين نسخة من طراز Llama 4 Maverick لتؤدي بشكل أفضل في اختبار LM Arena، أحد مقاييس تقييم قدرات النماذج.
ورغم التحسين، فإن النسخة الأساسية من النموذج ما زالت تُحقق نتائج أقل في نفس الاختبار، مما يسلط الضوء على فجوة الأداء بين النماذج المُعدلة وتلك الأصلية.

مقاييس الأداء تحت المجهر: هل هي دقيقة؟

يشير الخبراء إلى أن معظم اختبارات أداء الذكاء الاصطناعي تظل غير مثالية، وأن اعتماد تطبيقات خاصة أو أدوات مساعدة قد يزيد من تعقيد الصورة ويُصعّب مهمة المقارنة الشفافة بين النماذج المختلفة.

خلاصة المشهد: المنافسة تزداد تعقيدًا لا وضوحًا

في ظل تزايد استخدام معايير مخصصة وتجارب غير تقليدية، يبدو أن مقارنة نماذج الذكاء الاصطناعي لن تصبح أكثر سهولة في المستقبل القريب، بل قد يشوبها مزيد من الغموض نتيجة التعديلات والظروف المتغيرة لكل تجربة.

Leave a Reply

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

Trending

Exit mobile version