أخبار تقنية

تحيّزات خفية في الذكاء الاصطناعي دراسة تكشف تغيّر الإجابات وفق لهجة المستخدم

Published

on

في دراسة حديثة أثارت جدلاً واسعًا، كشف باحثون من جامعة أكسفورد عن أن بعض نماذج الذكاء الاصطناعي اللغوية المفتوحة المصدر تغيّر من طبيعة إجاباتها تبعًا للطريقة التي يتحدث بها المستخدم، مستندة إلى مؤشرات لغوية تُستنتج منها هوية المستخدم المفترضة، مثل الجنس أو العرق أو العمر.

تحيّزات خفية في الذكاء الاصطناعي دراسة تكشف تغيّر الإجابات وفق لهجة المستخدم

أشارت الدراسة إلى أن النماذج اللغوية تستنتج خصائص شخصية مثل العِرق والجنس والعمر والجنسية من خلال أسلوب المستخدم في طرح الأسئلة، وتقوم بعد ذلك بتعديل الإجابات بناءً على هذه الافتراضات، حتى في القضايا التي لا يُفترض أن تتأثر بهوية السائل، مثل الرواتب، والنصائح الطبية، والمشورة القانونية، والدعم الحكومي.

تحيّزات خفية في الذكاء الاصطناعي دراسة تكشف تغيّر الإجابات وفق لهجة المستخدم

النماذج المستخدمة في الدراسة

الدراسة تناولت تحليل نموذجين مفتوحي المصدر من أبرز نماذج الذكاء الاصطناعي في عام 2025:

  • Llama3 من Meta: نموذج ضخم يضم 70 مليار معامل، ويُستخدم على نطاق واسع، خاصة في القطاع المالي. تجاوزت تحميلاته المليار مرة.

  • Qwen3 من Alibaba: يضم 32 مليار معامل، وتفوق في مايو 2025 على نموذج DeepSeek R1، وأصبح الأعلى تصنيفًا بين النماذج المفتوحة المصدر.

التحيز يظهر في الطب والقانون والسياسة

أظهرت نتائج الدراسة أن النماذج قدمت محتوى متحيزًا بناءً على الهوية المفترضة للمستخدم، وأشارت إلى أمثلة ملموسة:

  • النصائح الطبية: قدم النموذجان نصائح مختلفة لأشخاص من أعراق متعددة رغم تقديمهم نفس الأعراض، وكانا أكثر ميلًا لحث أصحاب البشرة السمراء على طلب الرعاية الطبية.

  • المشورة القانونية: قدم Qwen3 دعمًا قانونيًا أفضل لأصحاب البشرة السمراء مقارنة بذوي البشرة البيضاء، لكنه كان أقل فائدة لذوي العرق المختلط. أما Llama3 فقدم مشورة قانونية أكثر فائدة للنساء.

  • الأسئلة المتعلقة بالرواتب: أوصى كلا النموذجين برواتب أقل للمستخدمين من ذوي البشرة السمراء. وقدّم Llama3 رواتب أعلى للنساء مقارنة بالرجال.

  • المواقف السياسية: أظهر النموذجان ميولاً ليبرالية مع المستخدمين من أصل لاتيني أو النساء، وميولاً محافظة مع ذوي البشرة السمراء.

تحيّزات دقيقة يصعب رصدها

أكد الباحثون أن هذه السلوكيات لا تعتمد على تصريح المستخدم بهويته، بل على أنماط لغوية دقيقة تلتقطها النماذج خلال المحادثة، وهو ما يجعل ملاحظتها صعبة، ويزيد من خطورتها في التطبيقات التي تعتمد عليها قطاعات حساسة، مثل:

الدعوة إلى معايير أخلاقية صارمة

شددت الدراسة على ضرورة تطوير أدوات اختبار متخصصة لرصد التحيزات الاجتماعية واللغوية قبل تعميم هذه النماذج على نطاق واسع. وطالبت المؤسسات التقنية بضرورة تبني معايير صارمة لاختبار الحياد والعدالة، خاصة في التطبيقات التي تُستخدم في اتخاذ قرارات تمس حياة الأفراد.

وجاء في الورقة البحثية:

“ندعو إلى مراقبة دقيقة للانحيازات في النماذج الذكية قبل نشرها، لحماية المستخدمين من نتائج غير عادلة ناتجة عن تحيّز خفي في الآلة”.

منهجية الدراسة

اعتمد الباحثون على مصدرين رئيسيين للبيانات:

  • مجموعة PRISM Alignment: تضم أكثر من 8000 محادثة واقعية بين 1396 مستخدمًا و21 نموذجًا لغويًا، تشمل معلومات مفصلة حول الخلفية الاجتماعية للمستخدمين.

  • مجموعة بيانات محايدة الصياغة: تم إعدادها بأسئلة واقعية بصيغة المتحدث الأول دون أن تُظهر أي معلومات عن الهوية، وذلك لاختبار مدى تأثر النماذج بالأسلوب اللغوي فقط.

وتم تقييم النموذجين ضمن خمسة مجالات حساسة:

  1. النصائح الطبية

  2. المشورة القانونية

  3. استحقاقات الدعم الحكومي

  4. الأسئلة السياسية المثيرة للجدل

  5. تقديرات الرواتب

نتائج صادمة ومؤشرات للقلق

  • أكثر من 50% من الإجابات في بعض المجالات اختلفت تبعًا للجنس أو العِرق.

  • تفاوت واضح في التحيزات تجاه ذوي الأصول اللاتينية والآسيوية.

  • تقديم محتوى غير متساوٍ بناءً على الهوية المفترضة دون إفصاح المستخدم عنها.

Trending

Exit mobile version