أخبار الشركات

آبل تطلق Manzano نقلة جديدة في فهم وتوليد الصور بالذكاء الاصطناعي

Published

8 أشهر ago

أكتوبر 5, 2025

أعلنت شركة آبل عن نموذج ذكاء اصطناعي جديد يحمل اسم Manzano، يُعد خطوة جريئة في مجال النماذج متعددة الوسائط، إذ يجمع بين قدرتين متناقضتين تقنيًا: فهم الصور وتوليدها. ويأتي هذا الابتكار في وقتٍ ما زالت فيه النماذج مفتوحة المصدر تواجه صعوبة في الموازنة بين هاتين المهمتين مقارنةً بالأنظمة التجارية المتقدمة مثل Gemini 2.5 من جوجل وGPT-4o من OpenAI. ويعني اسم Manzano بالإسبانية “شجرة التفاح”، في إشارة رمزية لهوية الشركة. ورغم أن النموذج لم يُطرح بعد للاستخدام العام، ولم تُوفر آبل نسخة تجريبية منه، فإنها نشرت ورقة بحثية مفصلة تضمنت أمثلة أولية منخفضة الدقة، قارنت من خلالها أداء Manzano مع نماذج منافسة مثل Deepseek Janus Pro وNano Banana (إصدار Gemini الخاص بتوليد الصور).

جدول المحتويات إخفاء

1 آبل تطلق Manzano نقلة جديدة في فهم وتوليد الصور بالذكاء الاصطناعي

1.1 بنية تقنية ثلاثية لتحقيق أداء متطور

1.2 نتائج واعدة في اختبارات الأداء

1.3 خطوة نحو ذكاء اصطناعي متعدد الوسائط

آبل تطلق Manzano نقلة جديدة في فهم وتوليد الصور بالذكاء الاصطناعي

توضح آبل أن النماذج مفتوحة المصدر تضطر غالبًا إلى الاختيار بين دقة الفهم أو جودة التوليد، نظرًا لاختلاف متطلبات العمليتين. ففهم الصور يحتاج إلى تدفق مستمر للبيانات، بينما يتطلب التوليد تقسيم الصورة إلى رموز منفصلة، ما يؤدي عادةً إلى تضارب في أداء النموذج.

آبل تطلق Manzano نقلة جديدة في فهم وتوليد الصور بالذكاء الاصطناعي

وللتغلب على ذلك، طوّرت آبل تصميمًا هجينًا يعتمد على مُرمّز صور مشترك ينتج نوعين من الرموز:

رموز مستمرة مخصصة لفهم الصور.
رموز منفصلة تُستخدم لتوليد الصور.
رئيس إنفيديا الذكاء الاصطناعي لن يقضي على الوظائف بل سيُعيد تعريفها

هذا النهج المزدوج يتيح توازنًا أفضل بين المهام، ويمنح Manzano مرونة كبيرة في التعامل مع النصوص والرسوم البيانية والمشاهد المعقدة دون فقدان الدقة أو الإبداع.

بنية تقنية ثلاثية لتحقيق أداء متطور

يتكون النموذج من ثلاثة مكونات رئيسية:

المرمّز الهجين (Hybrid Encoder).
نموذج لغوي موحّد (Unified Language Model).
مُفكك صور مستقل (Image Decoder) لإنتاج النتائج النهائية.

آبل تطرح تحديث iOS 26.0.1 لإصلاح أعطال الكاميرا والاتصال في سلسلة آيفون 17

وقد طوّرت آبل ثلاث نسخ من مُفكك الصور بأحجام مختلفة (0.9 و1.75 و3.52 مليار معلمة) تدعم دقة تتراوح بين 256 و2048 بكسلًا.
واستُخدم في تدريب النظام ما يقارب 2.3 مليار زوج من الصور والنصوص إلى جانب مليار زوج نص-صورة إضافي، أي ما مجموعه 1.6 تريليون رمز.

نتائج واعدة في اختبارات الأداء

وفقًا لاختبارات آبل، تفوق Manzano على العديد من النماذج المنافسة في معايير مثل ScienceQA وMMMU وMathVista، خاصة في المهام النصية-البصرية مثل تحليل الوثائق والرسوم البيانية. كما أظهرت النتائج أن الأداء يتحسن تدريجيًا مع زيادة حجم النموذج ليصل إلى 30 مليار معلمة.

وفي جانب التوليد، نجح Manzano في تنفيذ أوامر معقدة مثل نقل الأنماط الفنية وعمليات الإكمال (inpainting) والتوسيع (outpainting) وتقدير العمق، مما يجعله منافسًا قويًا لأفضل النماذج التجارية.

يوتيوب تعزز تجربة مشتركي Premium بتحديثات وميزات مبتكرة

خطوة نحو ذكاء اصطناعي متعدد الوسائط

تعتبر آبل أن Manzano يمثل نقطة تحول في أبحاثها حول الذكاء الاصطناعي متعدد الوسائط، بفضل بنيته المعيارية التي تتيح تطوير كل مكون على حدة واستخدام تقنيات تدريب متنوعة. ومع ذلك، تُقر الشركة بأن نماذجها لا تزال أقل تطورًا من منافسيها التجاريين، وهو ما يفسر استمرار اعتمادها على نموذج GPT-5 من OpenAI ضمن منظومة Apple Intelligence في نظام iOS 26.

Related Topics:Manzano آبل الذكاء الاصطناعي

موقع أخبار هاي تك

أخبار الشركات

آبل تطلق Manzano نقلة جديدة في فهم وتوليد الصور بالذكاء الاصطناعي

آبل تطلق Manzano نقلة جديدة في فهم وتوليد الصور بالذكاء الاصطناعي

بنية تقنية ثلاثية لتحقيق أداء متطور

نتائج واعدة في اختبارات الأداء

خطوة نحو ذكاء اصطناعي متعدد الوسائط

Trending