الذكاء الاصطناعي

دراسة عملية تقارن نماذج الذكاء الاصطناعي في اكتشاف الثغرات الأمنية GPT-5.5 يتصدر وGemini يتراجع

Published

19 ساعة ago

يونيو 4, 2026

أظهرت تجربة عملية أجراها أحد الباحثين في أمن التطبيقات فروقات ملحوظة بين نماذج الذكاء الاصطناعي الرائدة عند التعامل مع سيناريو يحاكي اختبار اختراق واقعي، حيث تفوق نموذج GPT-5.5 من حيث معدل النجاح، بينما برزت نماذج أخرى بقدرتها على خفض التكلفة أو التزامها بقيود السلامة.

جدول المحتويات إخفاء

1 دراسة عملية تقارن نماذج الذكاء الاصطناعي في اكتشاف الثغرات الأمنية GPT-5.5 يتصدر وGemini يتراجع

1.1 أكثر من 12 نموذجًا تحت الاختبار

1.2 GPT-5.5 يحقق أعلى معدل نجاح

1.3 DeepSeek يقدم أفضل قيمة مقابل التكلفة

1.4 نتائج متواضعة لنماذج Claude

1.5 Gemini يفضل الحذر على التنفيذ

1.6 اختلافات في فلسفة التعامل مع المهام الأمنية

1.7 نتائج عملية وليست تقييمًا رسميًا

دراسة عملية تقارن نماذج الذكاء الاصطناعي في اكتشاف الثغرات الأمنية GPT-5.5 يتصدر وGemini يتراجع

أجرى الباحث Kasra Rahjerdi التجربة باستخدام تطبيق تجريبي يحمل اسم Book Review، تم تصميمه ليحتوي على ثغرة أمنية مقصودة.

واعتمد السيناريو على وجود بيانات اعتماد خاصة بخدمة Firebase مكشوفة داخل ملف APK الخاص بالتطبيق، وهو ما يسمح بالوصول إلى قاعدة البيانات مباشرة وتجاوز بعض آليات الحماية الموجودة في واجهة البرمجة.

دراسة عملية تقارن نماذج الذكاء الاصطناعي في اكتشاف الثغرات الأمنية GPT-5.5 يتصدر وGemini يتراجع

أكثر من 12 نموذجًا تحت الاختبار

شملت الدراسة اختبار أكثر من 12 نموذج ذكاء اصطناعي مختلفًا، مع تخصيص ميزانية قدرها 10 دولارات لكل محاولة وسقف زمني يصل إلى ساعتين لكل اختبار.

وبلغ إجمالي الإنفاق على التجربة نحو 1500 دولار، بهدف قياس قدرة النماذج على تحليل التطبيق والوصول إلى نقطة الضعف الموجودة فيه.

GPT-5.5 يحقق أعلى معدل نجاح

بحسب نتائج التجربة، جاء GPT-5.5 في المركز الأول من حيث الأداء العام، إذ تمكن من إكمال المهمة بنجاح في 7 محاولات من أصل 10.

وأظهر النموذج قدرة على التركيز على المسار الصحيح للحل، حيث استطاع اكتشاف ثغرة Firebase بسرعة بعد تحليل التطبيق وتفكيك ملفاته، دون إهدار وقت كبير في فحص مكونات غير مرتبطة بالمشكلة الأساسية.

كما سجل تكلفة تقارب 9.46 دولارات لكل محاولة ناجحة، وهو ما يعكس توازنًا بين الكفاءة ومعدل النجاح المرتفع.

OpenAI توسّع قدرات Codex من مساعد برمجي إلى منصة متكاملة للأعمال الاحترافية

DeepSeek يقدم أفضل قيمة مقابل التكلفة

في المقابل، برز نموذج DeepSeek V4 Pro باعتباره الأكثر توفيرًا من الناحية الاقتصادية.

ورغم نجاحه في 3 محاولات فقط من أصل 10، فإن تكلفة الحل الناجح بلغت نحو 0.62 دولار، ما يجعله خيارًا منخفض التكلفة مقارنة بالنماذج الأعلى أداءً.

نتائج متواضعة لنماذج Claude

سجل كل من Claude Sonnet 4.6 وClaude Opus 4.8 نجاحًا محدودًا بواقع محاولتين ناجحتين لكل نموذج.

وأشار الباحث إلى أن Claude Opus اقترب من الوصول إلى الحل الصحيح في أكثر من مناسبة، إلا أن بعض المحاولات توقفت نتيجة تطبيق قيود السلامة المدمجة داخل النموذج.

OpenAI توسّع قدرات Codex من مساعد برمجي إلى منصة متكاملة للأعمال الاحترافية

Gemini يفضل الحذر على التنفيذ

على الجانب الآخر، جاءت نماذج Gemini في ذيل الترتيب خلال هذا الاختبار.

ووفقًا للتجربة، رفض Gemini تنفيذ العديد من الخطوات المطلوبة في أغلب المحاولات، وهو ما انعكس على انخفاض استهلاك الرموز مقارنة بباقي النماذج. كما أظهرت نسخة Gemini Flash سلوكًا مشابهًا مع عدد محدود جدًا من المحاولات المكتملة.

اختلافات في فلسفة التعامل مع المهام الأمنية

لاحظ الباحث وجود تباين واضح في طريقة تعامل النماذج مع السيناريو الأمني.

ففي حين أبدت بعض النماذج، خاصة الصينية منها، استعدادًا أكبر للتفاعل مع قواعد البيانات والمسارات التقنية المرتبطة بالاختبار، أظهرت بعض النماذج الغربية قدرًا أكبر من التحفظ حتى بعد تحديد المسار الصحيح للحل.

ويعكس ذلك اختلافًا في سياسات السلامة والقيود المفروضة على النماذج أكثر من كونه اختلافًا في القدرات التقنية البحتة.

تغييرات GitHub Copilot الجديدة تثير استياء المطورين بعد استنزاف الحصص بشكل أسرع

نتائج عملية وليست تقييمًا رسميًا

أكد الباحث أن هذه النتائج لا تمثل دراسة علمية شاملة أو معيارًا رسميًا لتقييم نماذج الذكاء الاصطناعي، وإنما تجربة عملية موثقة تهدف إلى مراقبة سلوك النماذج في سيناريو محدد.

Related Topics:Gemini GPT-5.5 الذكاء الاصطناعي

موقع أخبار هاي تك

الذكاء الاصطناعي

دراسة عملية تقارن نماذج الذكاء الاصطناعي في اكتشاف الثغرات الأمنية GPT-5.5 يتصدر وGemini يتراجع

دراسة عملية تقارن نماذج الذكاء الاصطناعي في اكتشاف الثغرات الأمنية GPT-5.5 يتصدر وGemini يتراجع

أكثر من 12 نموذجًا تحت الاختبار

GPT-5.5 يحقق أعلى معدل نجاح

DeepSeek يقدم أفضل قيمة مقابل التكلفة

نتائج متواضعة لنماذج Claude

Gemini يفضل الحذر على التنفيذ

اختلافات في فلسفة التعامل مع المهام الأمنية

نتائج عملية وليست تقييمًا رسميًا

Leave a Reply

Leave a Reply

Trending

دراسة عملية تقارن نماذج الذكاء الاصطناعي في اكتشاف الثغرات الأمنية GPT-5.5 يتصدر وGemini يتراجع

أكثر من 12 نموذجًا تحت الاختبار

GPT-5.5 يحقق أعلى معدل نجاح

DeepSeek يقدم أفضل قيمة مقابل التكلفة

نتائج متواضعة لنماذج Claude

Gemini يفضل الحذر على التنفيذ

اختلافات في فلسفة التعامل مع المهام الأمنية

نتائج عملية وليست تقييمًا رسميًا

Leave a Reply إلغاء الرد

Leave a Reply

Trending

Leave a Reply