مقارنة بين ChatGPT-5 و Gemini 2.5 Pro في إنشاء الصور بالذكاء الاصطناعي: من يتفوق في 9 اختبارات عملية؟

يعتبر كل من ChatGPT-5 و Gemini 2.5 Pro من بين أكثر روبوتات الدردشة متعددة الوسائط تطوراً المتاحة حالياً. كلاهما متوفر مع خيار المستوى المجاني، ويمكنهما إنشاء صور واقعية وواضحة داخل نافذة الدردشة في ثوانٍ معدودة.

مقارنة شاملة بين ChatGPT-5 و Gemini 2.5 Pro في إنشاء الصور بالذكاء الاصطناعي: من يتفوق في 9 اختبارات عملية؟

بالمقارنة مع GPT-4، فإن OpenAI’s GPT-5 يرتقي بتعدد الوسائط إلى المستوى التالي من خلال تحليل صور أكثر حدة، وصوت طبيعي أكثر، ونافذة سياق ضخمة تبلغ 400 ألف رمز. يُقال إن أحدث إصدار أكثر أمانًا مع عدد أقل من الأخطاء وأكثر ذكاءً في توجيه المهام بين وضعي “الدردشة” و “التفكير”، مما يجعله مساعدًا أقوى وأكثر تنوعًا يعمل بالذكاء الاصطناعي.

وبالمثل، يعتبر Gemini 2.5 Pro أحدث نموذج استدلال متعدد الوسائط من Google DeepMind. بفضل نافذة سياق ضخمة تبلغ مليون رمز، فإنه يتفوق في حل مسائل الرياضيات والعلوم المعقدة، ويتجاوز المنافسين في المعايير القياسية، ويظهر براعة استثنائية في البرمجة؛ بدءًا من المحاكاة التفاعلية وتطبيقات الويب ودعم تصحيح الأخطاء من خلال مطالبة واحدة، فهو يتعامل مع الصور والصوت والفيديو وحتى قواعد التعليمات البرمجية بأكملها.

كان عليّ أن أعرف كيف تتم المقارنة بين الاثنين في إنشاء الصور. إليكم ما حدث عندما استخدمت نفس المطالبات الإحدى عشرة لإنشاء الصور وكيف كان أداء روبوتات الدردشة تتنافس فيما بينها.

روابط سريعة

الفئة الأولى: دمج الصور

نيويورك المستقبلية

المُطالبة: “صمم مشهدًا مستقبليًا لشارع في مدينة نيويورك عام 2050، حيث تقوم شاحنات طعام ذاتية القيادة على شكل حيوانات بتقديم الطعام للناس. يجب أن تتضمن الصورة ثلاثة أنواع مختلفة على الأقل (مثل شاحنة على شكل باندا، وشاحنة على شكل دلفين، وشاحنة على شكل نسر)، ولافتات نيون بلغات متعددة وشوارع مبللة بالمطر مع انعكاسات.”

لقد نفذ ChatGPT-5 كل تفصيلة في المُطالبة، ومن الواضح أن الصورة تجسد مدينة نيويورك، على الرغم من كونها مستقبلية.

Gemini 2.5 Pro
أنتج صورة واضحة وحيوية استوفت تقريبًا كل جوانب المُطالبة، لكنها أغفلت العنصر الأهم: مدينة نيويورك. لا توجد طريقة لمعرفة مكان هذا المشهد.

الفائز: ChatGPT يفوز بفضل جماليته القوية واهتمامه بكل التفاصيل.

حيوانات الغابة غير المتوقعة

المُطالبة:“ابتكر قرية غابة نابضة بالحياة حيث تعيش الحيوانات مثل البشر. نمر يقرأ جريدة على أرجوحة شبكية، ببغاء يدير كشكًا لبيع الفاكهة، أفيال تحمل البقالة في سلال، وقرود تلعب كرة القدم في الخلفية. أضف أكواخًا خشبية، وكرومًا ملتفة حولها، وفوانيس متوهجة عند الغسق.”

ChatGPT-5 ارتقى بفكرة المزج إلى آفاق جديدة من خلال إنشاء صورة كانت هزلية وواقعية في الوقت نفسه. كنت آمل أن يميل أحد الروبوتات إلى الواقعية بدلًا من الرسوم الكاريكاتورية. لم يخيب ChatGPT أملي ولكنه أغفل تمامًا الببغاء الذي يدير كشكًا لبيع الفاكهة.

Gemini 2.5 Pro حول هذا المُطالبة إلى رسم توضيحي لطيف وأخذ التفاصيل في الاعتبار، ولكن بشكل عام لم تكن الصورة مثيرة للاهتمام (في رأيي).

الفائز: Gemini يفوز
لأنه أخذ في الاعتبار كل تفاصيل المُطالبة. كان ChatGPT قريباً جداً وكانت الصورة أكثر واقعية، وهو ما أعجبني، ولكن الفوز يجب أن يذهب إلى من تعامل مع المُطالبة بأفضل شكل. يسعدني أن أسمع آراءكم حول هذا الموضوع؛ شاركونا في التعليقات.

الفئة الثانية: داخلي/خارجي

غرفة معيشة دافئة

المُطالبة: “غرفة معيشة عصرية دافئة في فترة ما بعد الظهيرة الممطرة، أشعة الشمس تتخلل النافذة، مع كلب Golden Retriever نائم على الأريكة.”

أنتج ChatGPT-5 صورة واقعية ودافئة، ولكن الإضاءة دافئة جداً وتشبه المساء بالنسبة لمواصفات المُطالبة.

قدم Gemini 2.5 Pro صورة واقعية جداً تجسد المشهد بالإضاءة والجمالية الصحيحة، مع تجسيد كامل للمطلوب.

الفائز: Gemini
أظهر أداءً أفضل في التقاط حالة الإضاءة “بعد ظهر ممطر مع تسلل ضوء الشمس”، وقدم صورة أوضح لكلب الـ Golden Retriever، وخلق مشهدًا يتماشى بشكل أفضل مع الجمالية العصرية والمريحة الموصوفة.

سوق شعبي

المُطالبة: “سوق طعام في بانكوك ليلاً، أضواء النيون تنعكس على الرصيف المبلل، حشود صاخبة، وبخار يتصاعد من أكشاك الطعام.”

أبدع ChatGPT-5 انعكاسات حية وملونة تغمر المشاهد في الجو العام للمشهد. التركيبة جذابة سينمائيًا، والتوازن بين جميع العناصر – مثل البخار والحشود وعلامات النيون والانعكاسات المبللة – يبدو متناغمًا.

قدم Gemini 2.5 Pro جوًا حضريًا قويًا مع مشهد الشارع المزدحم وتضمن لافتات ممتازة بنصوص تايلاندية أصلية. انعكاسات الرصيف المبلل جيدة، ولكن يمكن أن تكون أكثر وضوحًا.

الفائز: ChatGPT قام بعمل متفوق مع هذا المُطالبة. في حين أن كلاهما التقط العناصر الأساسية، تفوق ChatGPT بشكل خاص في جانب “أضواء النيون تنعكس على الرصيف المبلل”، وهو تفصيل رئيسي في المُطالبة.

الفئة الثالثة: الإبداع والسريالية

مدينة مستقبلية

المُطالبة:“مدينة مستقبلية تطفو فوق المحيط، وتعمل بالطاقة من بلورات طاقة عملاقة متوهجة، مع سيارات طائرة تتنقل بين الأبراج.”

قدم ChatGPT-5 صورة ذات تفسير خيالي ومرئي مذهل مع بلورات طاقة عملاقة متوهجة. في حين أن البلورات تبدو وكأنها تزود المدينة بالطاقة، إلا أن الصورة الإجمالية تفتقر إلى العمق والفروق الدقيقة الواقعية التي يتمتع بها Gemini.

أنتج Gemini 2.5 Pro صورة نظيفة ذات تصميم معماري أنيق ومستقبلي يتكون من أبراج شاهقة ومبانٍ حديثة. إنها أكثر واقعية مع إحساس جيد بالحجم والتخطيط الحضري المصور.

الفائز: Gemini يفوز لإنشاء صورة خيالية وواقعية تعرض بشكل لا لبس فيه مصدر طاقة المدينة من البلورات المتوهجة ببراعة على المبنى. بشكل عام، يتطابق مفهوم الخيال العلمي بشكل أفضل مع هدف المُطالبة.

حفل شاي من عالم آخر

المُطالبة:“حفل شاي على سطح القمر مع رواد فضاء وكائنات فضائية، وأطباق بألوان الباستيل، ومنظر للأرض في الخلفية.”

أبدع ChatGPT-5 رسمًا توضيحيًا ساحرًا يميل إلى الخيال والقصص المصورة. نظام الألوان الباستيل المستخدم في الصورة بأكملها مبهج ومثير للاهتمام.

قدم Gemini 2.5 Pro نهجًا واقعيًا مع نسيج مناسب لسطح القمر ورواد فضاء يرتدون ملابس مناسبة لاستكشاف الفضاء. المنظر التفصيلي للأرض في الخلفية هو إضافة رائعة للتفاصيل.

الفائز: Gemini يفوز لتقديمه أفضل تنفيذ للمطلوب مع مشهد فضائي جميل وواقعي، و”كائنات فضائية” لطيفة، بالإضافة إلى التفاصيل الإضافية في المُطالبة.

الفئة 4: صور شخصية

يوم في باريس

المُطالبة:“صورة عفوية لامرأة في منتصف العمر تضحك في مقهى خارجي في باريس، مع برج إيفل ضبابيًا في الخلفية.”

ChatGPT أنتج صورة أقل واقعية، حيث تبدو مصطنعة واحترافية أكثر من اللازم، بدلاً من التقاط ضحكة عفوية. تفتقر خلفية برج إيفل إلى العمق المناسب وتأثير التمويه المذكور في المُطالبة.

Gemini 2.5 Pro قام بتمويه برج إيفل في الخلفية بشكل صحيح، مما خلق عمق مجال جيد مع التركيز على الضحكة الطبيعية والصادقة للمرأة في الصورة. يبدو التركيب العام كصورة شارع عفوية حقيقية.

الفائز: Gemini يفوز لالتقاطه الطبيعة “العفوية” للمطلوب بشكل أفضل بكثير.

تدريب كرة القدم

المُطالبة: “مجموعة من خمسة أطفال يلعبون كرة القدم في حديقة عشبية عند غروب الشمس، مع تأثير ضبابية الحركة لتجسيد الحركة، وتمثيل عرقي متنوع.”

ChatGPT-5 قدم تركيبة أكثر ثباتًا وإضاءة غروب الشمس تبدو أقل دراماتيكية. يبدو الأطفال في وضعيات ثابتة أكثر من كونهم في حركة.

Gemini 2.5 Pro أظهر تأثير ضبابية الحركة بوضوح مع الأطفال الذين يركضون مع كرة قدم مرئية وإحساس جيد بالحركة والطاقة. إضاءة الساعة الذهبية لغروب الشمس واقعية، وكذلك المجموعة المتنوعة من الأطفال الذين يلعبون.

الفائز: Gemini يفوز بتعامله مع المُطالبة بشكل أفضل وخلق شعور حقيقي بالأطفال وهم يركضون ويلعبون مع ضبابية حركة فعالة تجسد طاقة الأطفال في الحركة.

الفئة الخامسة: مرونة الأسلوب

الأسلوب الفني وواقعية الملمس

المُطالبة:“لوحة زيتية انطباعية لقناة هادئة في البندقية عند شروق الشمس، مستوحاة من لوحة الألوان وضربات الفرشاة لكلود مونيه.”

ChatGPT-5 التقط حقًا تقنية انطباعية مع ضربات فرشاة واضحة ومعبرة في جميع أنحاء اللوحة.

Gemini 2.5 Pro ابتكر لوحة جميلة، لكن الصورة أقرب إلى الواقعية الفوتوغرافية من الأسلوب الانطباعي الحقيقي.

الفائز: ChatGPT يفوز لتنفيذه المُطالبة بشكل أفضل بكثير. في حين أن Gemini أنشأ مشهدًا ممتعًا للبندقية، إلا أنه فاته المطلب الأساسي للأسلوب الانطباعي، وهو ما قدمه ChatGPT. تلتقط صورة برنامج الدردشة الآلي جوهر الطريقة التي كان مونيه سيتعامل بها مع شروق الشمس في البندقية، مع إعطاء الأولوية لانطباع الضوء واللون على التفاصيل المعمارية الحرفية.

تصميم ملصق بأسلوب الأنمي

المُطالبة: “ملصق بنمط الأنمي الياباني يظهر فتاة مراهقة تقف على سطح مبنى عند الغسق، وأزهار الكرز تتساقط حولها.”

ChatGPT ركز على الشخصية أكثر من التفاصيل البيئية، وكانت الصورة أقرب إلى الأنمي منها إلى الملصق.

Gemini 2.5 Pro أنشأ تصميم ملصق احترافي ومتقن مع نص وعنوان يابانيين.

الفائز: Gemini تعامل مع هذا المُطالبة بفعالية أكبر. الكلمة المفتاحية كانت “ملصق”. أنشأ Gemini تصميم ملصق فعليًا كاملاً مع نص ياباني، وتكوين مناسب، وتصميم احترافي كما تراه في فيلم أو مسلسل أنمي.

الفئة 6: دقة العناصر والعلامات التجارية

9. النمط التسويقي

المُطالبة:“صورة مسطحة من الأعلى لأحدث iPhone على مكتب خشبي، بجانب AirPods وكوب قهوة، تم التقاطها بجمالية نظيفة على طريقة Apple.”

ChatGPT-5 كان صحيحًا في الزاوية العلوية والسطح الخشبي، لكنه أخطأ الهدف بإحساس أكثر عفوية ومعيشة بدلاً من جمالية Apple النقية.

Gemini 2.5 Pro أصاب الجمالية تمامًا بصورة مثالية من الأعلى، وتكوين نظيف وبسيط مع مساحة بيضاء واسعة. الـ iPhone بتصميمه العصري وخلفية ملونة قدم تفاصيل استثنائية.

الفائز: Gemini نفذ متطلبات “جمالية Apple النظيفة” بشكل أفضل بكثير. يتميز التكوين بجودة نقية وبسيطة تحدد تصوير Apple التسويقي. الفرق في الاهتمام بمتطلبات الجمالية واضح تمامًا بين النهجين.

الفائز الإجمالي: Gemini 2.5 Pro

بعد اختبار تسعة طلبات متنوعة عبر خمس فئات، يبرز Gemini 2.5 Pro كمولد صور أقوى، حيث فاز بستة من أصل تسع مقارنات. تفوق نموذج Google باستمرار في الواقعية الفوتوغرافية والدقة التقنية، خاصة عندما تحتوي المُطالبةات على متطلبات محددة مثل ظروف الإضاءة أو ضبابية الحركة أو الأساليب الجمالية. أظهر Gemini اهتمامًا فائقًا بالتفاصيل في سيناريوهات تتراوح من التصوير الفوتوغرافي العفوي في الشوارع إلى لقطات منتجات على طريقة Apple.

ChatGPT-5 أظهر نقاط قوته في التفسير الفني والتأثيرات الجوية، وقدم نتائج متميزة عندما كانت التعبيرات الإبداعية أكثر أهمية من الدقة التقنية.

تكشف النتائج عن فلسفات متميزة: يميل Gemini نحو الدقة التقنية والالتزام الحرفي بالمُطالبة، بينما يميل ChatGPT إلى التفسير الفني والتأثير البصري. بالنسبة للمستخدمين الذين يعطون الأولوية للدقة والتنفيذ التفصيلي للطلب، يثبت Gemini 2.5 Pro أنه أكثر موثوقية. ومع ذلك، يظل ChatGPT-5 ذا قيمة عند البحث عن الذوق الإبداعي ورواية القصص الجوية.

الوسوم