أظهرت تجربة عملية أجراها أحد الباحثين في أمن التطبيقات فروقات ملحوظة بين نماذج الذكاء الاصطناعي الرائدة عند التعامل مع سيناريو يحاكي اختبار اختراق واقعي، حيث تفوق نموذج GPT-5.5 من حيث معدل النجاح، بينما برزت نماذج أخرى بقدرتها على خفض التكلفة أو التزامها بقيود السلامة.
دراسة عملية تقارن نماذج الذكاء الاصطناعي في اكتشاف الثغرات الأمنية GPT-5.5 يتصدر وGemini يتراجع
أجرى الباحث Kasra Rahjerdi التجربة باستخدام تطبيق تجريبي يحمل اسم Book Review، تم تصميمه ليحتوي على ثغرة أمنية مقصودة.
واعتمد السيناريو على وجود بيانات اعتماد خاصة بخدمة Firebase مكشوفة داخل ملف APK الخاص بالتطبيق، وهو ما يسمح بالوصول إلى قاعدة البيانات مباشرة وتجاوز بعض آليات الحماية الموجودة في واجهة البرمجة.
دراسة عملية تقارن نماذج الذكاء الاصطناعي في اكتشاف الثغرات الأمنية GPT-5.5 يتصدر وGemini يتراجع
أكثر من 12 نموذجًا تحت الاختبار
شملت الدراسة اختبار أكثر من 12 نموذج ذكاء اصطناعي مختلفًا، مع تخصيص ميزانية قدرها 10 دولارات لكل محاولة وسقف زمني يصل إلى ساعتين لكل اختبار.
وبلغ إجمالي الإنفاق على التجربة نحو 1500 دولار، بهدف قياس قدرة النماذج على تحليل التطبيق والوصول إلى نقطة الضعف الموجودة فيه.
GPT-5.5 يحقق أعلى معدل نجاح
بحسب نتائج التجربة، جاء GPT-5.5 في المركز الأول من حيث الأداء العام، إذ تمكن من إكمال المهمة بنجاح في 7 محاولات من أصل 10.
وأظهر النموذج قدرة على التركيز على المسار الصحيح للحل، حيث استطاع اكتشاف ثغرة Firebase بسرعة بعد تحليل التطبيق وتفكيك ملفاته، دون إهدار وقت كبير في فحص مكونات غير مرتبطة بالمشكلة الأساسية.
كما سجل تكلفة تقارب 9.46 دولارات لكل محاولة ناجحة، وهو ما يعكس توازنًا بين الكفاءة ومعدل النجاح المرتفع.
في المقابل، برز نموذج DeepSeek V4 Pro باعتباره الأكثر توفيرًا من الناحية الاقتصادية.
ورغم نجاحه في 3 محاولات فقط من أصل 10، فإن تكلفة الحل الناجح بلغت نحو 0.62 دولار، ما يجعله خيارًا منخفض التكلفة مقارنة بالنماذج الأعلى أداءً.
نتائج متواضعة لنماذج Claude
سجل كل من Claude Sonnet 4.6 وClaude Opus 4.8 نجاحًا محدودًا بواقع محاولتين ناجحتين لكل نموذج.
وأشار الباحث إلى أن Claude Opus اقترب من الوصول إلى الحل الصحيح في أكثر من مناسبة، إلا أن بعض المحاولات توقفت نتيجة تطبيق قيود السلامة المدمجة داخل النموذج.
على الجانب الآخر، جاءت نماذج Gemini في ذيل الترتيب خلال هذا الاختبار.
ووفقًا للتجربة، رفض Gemini تنفيذ العديد من الخطوات المطلوبة في أغلب المحاولات، وهو ما انعكس على انخفاض استهلاك الرموز مقارنة بباقي النماذج. كما أظهرت نسخة Gemini Flash سلوكًا مشابهًا مع عدد محدود جدًا من المحاولات المكتملة.
اختلافات في فلسفة التعامل مع المهام الأمنية
لاحظ الباحث وجود تباين واضح في طريقة تعامل النماذج مع السيناريو الأمني.
ففي حين أبدت بعض النماذج، خاصة الصينية منها، استعدادًا أكبر للتفاعل مع قواعد البيانات والمسارات التقنية المرتبطة بالاختبار، أظهرت بعض النماذج الغربية قدرًا أكبر من التحفظ حتى بعد تحديد المسار الصحيح للحل.
ويعكس ذلك اختلافًا في سياسات السلامة والقيود المفروضة على النماذج أكثر من كونه اختلافًا في القدرات التقنية البحتة.
أكد الباحث أن هذه النتائج لا تمثل دراسة علمية شاملة أو معيارًا رسميًا لتقييم نماذج الذكاء الاصطناعي، وإنما تجربة عملية موثقة تهدف إلى مراقبة سلوك النماذج في سيناريو محدد.