أظهرت النماذج اللغوية الكبيرة قدرات مذهلة في العديد من المجالات التقنية والإبداعية، مثل كتابة الأكواد البرمجية وإنتاج المحتوى، إلا أنها ما زالت تواجه تحديات ملحوظة في مجال فهم التاريخ. دراسة حديثة سلطت الضوء على هذه المشكلة، إذ اختبرت أداء بعض النماذج اللغوية الكبيرة الرائدة في الإجابة عن أسئلة تاريخية معقدة، وكشفت عن نتائج غير مشجعة.
تحديات الذكاء الاصطناعي في فهم التاريخ دراسة تكشف عن صعوبات النماذج اللغوية الكبيرة
قام فريق من الباحثين بتطوير معيار يُسمى (Hist-LLM) لاختبار أداء النماذج اللغوية الكبيرة، مثل:
تحديات الذكاء الاصطناعي في فهم التاريخ دراسة تكشف عن صعوبات النماذج اللغوية الكبيرة
GPT-4 من OpenAI.
Llama من Meta.
Gemini من Google.
اعتمد المعيار على قاعدة بيانات شاملة تُدعى (Seshat)، وهي مرجع غني بالمعلومات التاريخية تغطي فترات زمنية وأماكن متنوعة. ركز هذا المعيار على قياس دقة وموثوقية المعلومات التاريخية التي تقدمها النماذج، مقارنة بقاعدة البيانات، بهدف تقييم قدراتها في استيعاب السياق التاريخي والتفريق بين الحقائق والمعلومات المغلوطة.
نتائج أقل من التوقعات
عرضت نتائج الدراسة خلال مؤتمر (NeurIPS) العالمي للذكاء الاصطناعي، حيث أظهرت أن أداء النماذج المختبرة كان دون المستوى المطلوب.
حقق نموذج GPT-4 Turbo أفضل أداء، لكن دقته لم تتجاوز 46%، وهو أداء قريب من التخمين العشوائي.
أكدت الباحثة ماريا ديل ريو-شانونا أن هذه النتائج تعكس ضعف النماذج في التعامل مع التحليل التاريخي المتقدم، مشيرة إلى أنها تتقن استرجاع المعلومات العامة لكنها تفتقر إلى العمق اللازم لفهم السياق التاريخي.
على سبيل المثال، عندما سُئل نموذج GPT-4 Turbo عن استخدام الدروع الحرشفية في مصر القديمة، أخطأ في تحديد الفترة الزمنية الصحيحة، ما يدل على ميل النماذج إلى الاستنتاج الخاطئ بسبب البيانات المتاحة.
التحيز في بيانات التدريب
كشفت الدراسة عن تحيزات جغرافية واضحة في أداء النماذج، إذ أظهرت ضعفًا ملحوظًا في الإجابة عن أسئلة مرتبطة بمناطق مثل أفريقيا جنوب الصحراء الكبرى. يرجع ذلك إلى نقص التمثيل العادل لهذه المناطق في بيانات التدريب.
رغم النتائج المخيبة للآمال، يرى الباحثون إمكانية الاستفادة من النماذج اللغوية كأدوات مساعدة لتسريع البحث التاريخي وتقديم معلومات أولية. يعمل الباحثون حاليًا على تحسين معايير التقييم بإضافة بيانات أكثر تمثيلًا وطرح أسئلة تاريخية أكثر تعقيدًا.
تختتم الدراسة بتأكيد أهمية تحسين النماذج اللغوية لتصبح أدوات فعالة في مجال البحث التاريخي، مع الحفاظ على دور البشر في التحليل النقدي والتفسير العميق للأحداث التاريخية.