أعلنت شركة جوجل عن تطوير سلسلة جديدة من النماذج اللغوية تحت اسم DataGemma، تهدف إلى تحسين دقة الإجابة عن الأسئلة المتعلقة بالبيانات الرقمية والمعطيات الإحصائية. تأتي هذه السلسلة الجديدة لتحل محل الخوارزميات السابقة المستخدمة في هذا المجال، مع التركيز بشكل خاص على تقديم استجابات أكثر دقة وموثوقية.
جوجل تطلق سلسلة DataGemma لتحسين دقة الإجابة عن الأسئلة الرقمية
سلسلة DataGemma تعتمد على نموذج Gemma 2 27B، وهو نموذج لغوي كبير مفتوح المصدر أصدرته جوجل في يونيو 2024، يحتوي على 27 مليار معلمة. وفقًا لجوجل، يتمتع هذا النموذج بقدرة تنافسية تضاهي النماذج الأخرى التي تحتوي على ضعف عدد المعلمات. وبفضل هذا النموذج، تقدم DataGemma إجابات سريعة ودقيقة على الاستفسارات المتعلقة بالحقائق الإحصائية.
جوجل تطلق سلسلة DataGemma لتحسين دقة الإجابة عن الأسئلة الرقمية
استخدام مستودع Data Commons
تستند سلسلة DataGemma المطلقه من جوجل إلى مستودع Data Commons، وهو قاعدة بيانات ضخمة تحتوي على أكثر من 240 مليار نقطة بيانات تم جمعها من مصادر موثوقة، مثل الأمم المتحدة ومنظمة الصحة العالمية ومراكز السيطرة على الأمراض. هذه البيانات تمكن النموذج من الإجابة عن الأسئلة المتعلقة بالحقائق الإحصائية، مثل متوسط إيرادات الشركات في صناعات محددة، أو الإحصاءات الصحية العالمية.
تتميز سلسلة DataGemma بأنها تعتمد على البحث بلغة طبيعية للتفاعل مع مستودع Data Commons، مما يسهل على المستخدمين طرح الأسئلة دون الحاجة إلى معرفة المخططات البيانية أو كيفية استخدام واجهات برمجة التطبيقات المعقدة. هذا يعني أن المستخدمين العاديين يمكنهم الاستفادة من المعلومات الموثوقة بشكل أسهل وأكثر دقة.
طورت جوجل نسختين من سلسلة DataGemma، حيث تعتمد كل منهما نهجًا مختلفًا في كيفية الإجابة عن الأسئلة:
النسخة الأولى: RIG (التوليد المتداخل للاسترجاع)
هذه الطريقة تعتمد على استرجاع المعلومات من مستودع Data Commons، ثم يستخدم النموذج اللغوي الكبير لتوليد الإجابة المناسبة. تتيح هذه الطريقة تقديم استجابة سريعة، لكنها قد تكون أقل دقة في بعض الحالات.
النسخة الثانية: RAG (التوليد المعزز للاسترجاع)
هنا، يتم استرداد المعلومات ذات الصلة من المستودع وإرسالها إلى نموذج Gemini 1.5 Pro، الذي يعمل على توليد إجابة أكثر دقة وشمولية. هذه الطريقة تقدم معدلات نجاح عالية وتُعد أكثر فعالية في تقديم معلومات دقيقة.
نتائج الأداء ومعدلات النجاح
وفقًا لتجارب جوجل، حققت النسخة RIG من سلسلة DataGemma نسبة نجاح بلغت 58% في استرجاع الحقائق الرقمية من مستودع Data Commons. بينما تفوقت النسخة RAG بمعدلات نجاح تتراوح بين 80% و94% في توليد إجابات صحيحة خلال الاختبارات التي أجرتها الشركة.
تعد سلسلة DataGemma خطوة مهمة نحو تطوير الذكاء الاصطناعي الذي يمكنه تقديم إجابات دقيقة وموثوقة على الأسئلة المتعلقة بالبيانات الرقمية. من خلال اعتمادها على نموذج لغوي كبير ومستودع بيانات موثوق، يمكن لهذه السلسلة أن تحدث تغييرًا كبيرًا في كيفية تفاعل المستخدمين مع البيانات الرقمية المعقدة، وتسهيل وصولهم إلى معلومات موثوقة دون الحاجة إلى معرفة متعمقة بالبيانات.