في رؤية مستقبلية لافتة، قدّمت العالِمة الرائدة في-في لي، أستاذة علوم الحاسب في جامعة ستانفورد ومؤسِّسة World Labs، تصورًا جديدًا لمسار الذكاء الاصطناعي خلال السنوات المقبلة، مؤكدة أن الذكاء الحقيقي لن يتحقق إلا عندما تتمكن الآلة من فهم العالم المادي تمامًا كما يفعل البشر — أي إدراك الحركة والمسافات والعلاقات المكانية، وليس الاكتفاء بمعالجة اللغة. وترى لي، التي تُعرف بلقب “أم الذكاء الاصطناعي”، أن البشرية تقف على أعتاب منح الآلة القدرة ذاتها التي اكتسبتها الكائنات الأولى قبل مئات ملايين السنين، حين ظهرت أولى مهارات تحديد الموقع والحيّز. وتصف هذا الإدراك المكاني بأنه “النواة الأولى للذكاء” التي انطلقت منها كل أشكال التفكير المعقد عبر التاريخ.
ذكاء يفهم العالم كيف تتصور أمّ الذكاء الاصطناعي مستقبل التقنية
توضح لي أن النماذج اللغوية الضخمة بارعة في فهم النصوص، لكنها تكاد تكون عمياء تمامًا أمام قوانين العالم الحقيقي. وحتى النماذج متعددة الوسائط – القادرة على تحليل الصور – لا تستطيع حتى الآن تقدير الأحجام أو الاتجاهات أو المسافات بدقة، ويظهر ذلك بوضوح عند مطالبتها بإجراء تدوير عقلي لجسم أو التنبؤ بمسار كرة متحركة.
وتقارن لي بين قدرات الإنسان والآلة؛ فالبشر لا يرون الكوب فحسب، بل يفهمون وزنه وحجمه وموقعه على الفور، وهي قدرات لا تزال خارج نطاق الذكاء الاصطناعي الحالي. وتشير إلى أن جذور الذكاء بدأت من أبسط الحلقات الحسية لدى الكائنات الأولى، والتي تطورت لاحقًا إلى إدراك ثم تفاعل ثم تفكير.
ذكاء يفهم العالم كيف تتصور أمّ الذكاء الاصطناعي مستقبل التقنية
كيف مهّد “الذكاء المكاني” لأعظم الاكتشافات العلمية؟
تستعرض لي أمثلة من التاريخ تُظهر أن التقدم المعرفي الإنساني اعتمد بدرجة كبيرة على الإدراك المكاني. فقد تمكن العالم إراتوستينس من حساب محيط الأرض عبر مقارنة ظلال في مدينتين مصريتين، بينما توصّل واتسون وكريك إلى شكل الحمض النووي عبر مجسمات ثلاثية الأبعاد.
وتؤكد لي أن هذه القفزات العلمية ما كانت لتتحقق عبر النصوص وحدها، بل عبر القدرة على تمثيل العالم في الذهن بشكل ثلاثي الأبعاد.
وتقول إن هذا المجال سيكون أضخم تحدٍ واجه الذكاء الاصطناعي على الإطلاق، لأن اللغة مجرد رموز، بينما العالم الحقيقي يخضع لقوانين فيزيائية صارمة.
خطوات نحو نماذج ثلاثية ورباعية الأبعاد
تكشف لي أن شركتها تعمل على نموذج تجريبي جديد يسمى Marble، يهدف إلى تطوير ما يعادل “التنبؤ بالكلمة التالية” في النماذج اللغوية، ولكن في سياق الحركة والفضاء والسببية. ويتطلب ذلك مجموعات هائلة من الصور والفيديو والبيانات ثلاثية الأبعاد، إضافة إلى طرق ترميز تحفظ البنية المكانية بدلًا من تحويلها إلى بيانات مسطحة.
وفي الاتجاه نفسه، تطور شركة Spaitial الألمانية نماذج قادرة على توليد عوالم ثلاثية الأبعاد واقعية أو خيالية، مع الحفاظ على ثبات المادة والهندسة أثناء الحركة.
وتضيف لي أن “Marble” يمكّن المصممين من إنشاء بيئات ثلاثية الأبعاد فورية، رغم أن النموذج لا يزال يعاني من بعض عدم الاستقرار في المشاهد. وتؤكد أن التطبيقات المستقبلية قد تشمل:
فالذكاء المكاني شرطٌ أساسي لفهم العالم الحقيقي والتفاعل معه.
اتفاق واسع بين أبرز علماء الذكاء الاصطناعي
يتشارك هذه الرؤية علماء كبار مثل يان لوكون، كبير علماء الذكاء الاصطناعي في ميتا سابقًا، والذي يرى بدوره أن النماذج اللغوية – رغم براعتها البلاغية – تفتقر إلى الخبرة الحسية التي تتيح فهمًا حقيقيًا للعالم.
ويجمع لي ولوكون على أن مستقبل الذكاء الاصطناعي يعتمد على “نماذج العالم”، التي تضع الإدراك البصري والمكاني في صميم عملية “الفهم”، وتشكل الطريق الأكثر واقعية نحو ذكاء أقرب إلى البشر.