أخبار الشركات

آبل تطلق Manzano نقلة جديدة في فهم وتوليد الصور بالذكاء الاصطناعي

Published

on

أعلنت شركة آبل عن نموذج ذكاء اصطناعي جديد يحمل اسم Manzano، يُعد خطوة جريئة في مجال النماذج متعددة الوسائط، إذ يجمع بين قدرتين متناقضتين تقنيًا: فهم الصور وتوليدها. ويأتي هذا الابتكار في وقتٍ ما زالت فيه النماذج مفتوحة المصدر تواجه صعوبة في الموازنة بين هاتين المهمتين مقارنةً بالأنظمة التجارية المتقدمة مثل Gemini 2.5 من جوجل وGPT-4o من OpenAI. ويعني اسم Manzano بالإسبانية “شجرة التفاح”، في إشارة رمزية لهوية الشركة. ورغم أن النموذج لم يُطرح بعد للاستخدام العام، ولم تُوفر آبل نسخة تجريبية منه، فإنها نشرت ورقة بحثية مفصلة تضمنت أمثلة أولية منخفضة الدقة، قارنت من خلالها أداء Manzano مع نماذج منافسة مثل Deepseek Janus Pro وNano Banana (إصدار Gemini الخاص بتوليد الصور).

آبل تطلق Manzano نقلة جديدة في فهم وتوليد الصور بالذكاء الاصطناعي

توضح آبل أن النماذج مفتوحة المصدر تضطر غالبًا إلى الاختيار بين دقة الفهم أو جودة التوليد، نظرًا لاختلاف متطلبات العمليتين. ففهم الصور يحتاج إلى تدفق مستمر للبيانات، بينما يتطلب التوليد تقسيم الصورة إلى رموز منفصلة، ما يؤدي عادةً إلى تضارب في أداء النموذج.

آبل تطلق Manzano نقلة جديدة في فهم وتوليد الصور بالذكاء الاصطناعي

وللتغلب على ذلك، طوّرت آبل تصميمًا هجينًا يعتمد على مُرمّز صور مشترك ينتج نوعين من الرموز:

هذا النهج المزدوج يتيح توازنًا أفضل بين المهام، ويمنح Manzano مرونة كبيرة في التعامل مع النصوص والرسوم البيانية والمشاهد المعقدة دون فقدان الدقة أو الإبداع.

بنية تقنية ثلاثية لتحقيق أداء متطور

يتكون النموذج من ثلاثة مكونات رئيسية:

  1. المرمّز الهجين (Hybrid Encoder).

  2. نموذج لغوي موحّد (Unified Language Model).

  3. مُفكك صور مستقل (Image Decoder) لإنتاج النتائج النهائية.

وقد طوّرت آبل ثلاث نسخ من مُفكك الصور بأحجام مختلفة (0.9 و1.75 و3.52 مليار معلمة) تدعم دقة تتراوح بين 256 و2048 بكسلًا.
واستُخدم في تدريب النظام ما يقارب 2.3 مليار زوج من الصور والنصوص إلى جانب مليار زوج نص-صورة إضافي، أي ما مجموعه 1.6 تريليون رمز.

نتائج واعدة في اختبارات الأداء

وفقًا لاختبارات آبل، تفوق Manzano على العديد من النماذج المنافسة في معايير مثل ScienceQA وMMMU وMathVista، خاصة في المهام النصية-البصرية مثل تحليل الوثائق والرسوم البيانية. كما أظهرت النتائج أن الأداء يتحسن تدريجيًا مع زيادة حجم النموذج ليصل إلى 30 مليار معلمة.

وفي جانب التوليد، نجح Manzano في تنفيذ أوامر معقدة مثل نقل الأنماط الفنية وعمليات الإكمال (inpainting) والتوسيع (outpainting) وتقدير العمق، مما يجعله منافسًا قويًا لأفضل النماذج التجارية.

خطوة نحو ذكاء اصطناعي متعدد الوسائط

تعتبر آبل أن Manzano يمثل نقطة تحول في أبحاثها حول الذكاء الاصطناعي متعدد الوسائط، بفضل بنيته المعيارية التي تتيح تطوير كل مكون على حدة واستخدام تقنيات تدريب متنوعة. ومع ذلك، تُقر الشركة بأن نماذجها لا تزال أقل تطورًا من منافسيها التجاريين، وهو ما يفسر استمرار اعتمادها على نموذج GPT-5 من OpenAI ضمن منظومة Apple Intelligence في نظام iOS 26.

Trending

Exit mobile version