أعلنت شركة أنثروبيك الناشئة في مجال الذكاء الاصطناعي عن تطوير تقنية أمنية متقدمة تهدف إلى منع إساءة استخدام نماذجها اللغوية، وذلك من خلال تقليل فرص استخراج محتوى ضار. هذه الخطوة تعكس التوجه المتسارع للشركات الكبرى لتعزيز معايير الأمان في هذا المجال، في ظل تزايد المخاوف من استغلال الذكاء الاصطناعي لأغراض غير مشروعة.
أوضحت أنثروبيك، في ورقة بحثية حديثة، أنها طوّرت نظامًا أمنيًا يُعرف باسم “المُصنّفات الدستورية”، والذي يعمل كطبقة حماية إضافية فوق نماذج الذكاء الاصطناعي، مثل نموذجها الشهير Claude. يعتمد هذا النظام على مراقبة المدخلات والمخرجات، لمنع أي محتوى غير آمن أو محظور.
يأتي هذا التطور استجابةً للتحديات المتزايدة في مجال أمان الذكاء الاصطناعي، وأبرزها ظاهرة “اختراق الذكاء الاصطناعي” (Jailbreaking)، والتي تشمل محاولات التحايل على النماذج لإنتاج محتوى خطير، مثل تعليمات تصنيع الأسلحة الكيميائية. ومع تصاعد هذه التهديدات، تعمل الشركات على تعزيز دفاعاتها لحماية نماذجها من الاستغلال غير القانوني.
تنافس الشركات في تطوير تقنيات الحماية
لم تكن أنثروبيك الوحيدة التي اتخذت خطوات لمواجهة التهديدات الأمنية في الذكاء الاصطناعي، فقد أطلقت مايكروسوفت تقنية “الدروع التوجيهية” (Prompt Shields) في مارس الماضي، بينما قدمت ميتا نظام “حارس التوجيه” (Prompt Guard) في يوليو 2023، ورغم تعرضه للاختراق في البداية، فقد تم تحسينه لاحقًا لمقاومة الهجمات.
مرونة النظام الجديد واستعداده للمستقبل
أكد مرينانك شارما، أحد أعضاء الفريق التقني في أنثروبيك، أن الهدف الرئيسي من تطوير النظام هو التعامل مع المخاطر الشديدة، مثل تصنيع الأسلحة الكيميائية، لكنه أشار إلى أن أهم ميزة في التقنية الجديدة هي قدرتها على التكيف السريع مع التهديدات المختلفة.
ورغم أن أنثروبيك لم تدمج التقنية حتى الآن في نماذج Claude الحالية، فإنها أشارت إلى إمكانية استخدامها مستقبلًا عند تطوير نماذج أكثر تطورًا وأعلى خطورة.
كيف يعمل النظام الجديد؟
يعتمد نظام “المُصنّفات الدستورية” على مجموعة من القواعد (“دستور”) التي تحدد المحتوى المسموح به والمحظور، ويمكن تعديل هذه القواعد للتعامل مع أنواع مختلفة من المواد الخطرة.
وتستخدم الجهات التي تحاول اختراق النماذج الذكية أساليب متنوعة، مثل:
إعادة صياغة الطلبات بأسلوب غير تقليدي، لجعل النموذج يستجيب دون أن يدرك أنه يقدم معلومات محظورة.
مطالبة النموذج بالتصرف كشخصية خيالية، في محاولة لتجاوز قيود الأمان.
لضمان فاعلية النظام، أطلقت أنثروبيك برنامج “مكافآت اكتشاف الثغرات” (Bug Bounty)، حيث تصل قيمة المكافآت إلى 15,000 دولار للباحثين الذين ينجحون في اختراق النظام، بهدف تحسينه قبل إطلاقه رسميًا.
نتائج واعدة في الاختبارات الأولية
وفقًا لاختبارات الشركة، نجح نموذج Claude 3.5 Sonnet، عند تشغيل التقنية الأمنية الجديدة، في رفض أكثر من 95% من محاولات الاختراق، مقارنةً بنسبة 14% فقط عند عدم تفعيلها. هذه النتيجة تعكس تطورًا كبيرًا في قدرة أنظمة الحماية على مواجهة التهديدات المتقدمة.
تحاول شركات الذكاء الاصطناعي تحقيق توازن بين تعزيز الأمان والحفاظ على كفاءة النماذج. فالإجراءات الصارمة للمراقبة قد تؤدي أحيانًا إلى رفض الطلبات المشروعة. وقد واجهت نماذج مثل Gemini و Llama 2 مشكلات مشابهة عند إطلاقها، بسبب الحماية الزائدة التي منعت أحيانًا المستخدمين من الحصول على إجابات طبيعية.
لكن أنثروبيك أكدت أن نظامها الجديد أدى إلى زيادة طفيفة فقط في معدلات الرفض غير الضرورية، مما يشير إلى تحسن في القدرة على التمييز بين الطلبات الآمنة والخطرة.
تكلفة تشغيلية إضافية.. هل تستحق العناء؟
إضافة هذه الطبقة الأمنية تأتي بتكلفة تشغيلية إضافية، حيث أوضحت أنثروبيك أن تشغيلها يزيد استهلاك الموارد الحاسوبية بنسبة 24%. وهذا يشكل تحديًا ماليًا وتقنيًا، لا سيما مع الارتفاع المستمر في تكاليف تشغيل نماذج الذكاء الاصطناعي.
مع تصاعد التهديدات المتعلقة باختراق الذكاء الاصطناعي، تعمل الشركات الكبرى على تعزيز تقنياتها الأمنية لحماية نماذجها. وتُظهر تقنية أنثروبيك الجديدة إمكانات واعدة في جعل الذكاء الاصطناعي أكثر أمانًا، لكن يبقى السؤال: هل ستتمكن الشركة من تحقيق التوازن بين الأمان وكفاءة الأداء دون التأثير على تجربة المستخدم؟