أطلقت OpenAI نموذج ChatGPT Images 2.0 في 21 أبريل 2026، وهو نموذج جديد لتوليد الصور مصمم للتعامل مع المهام البصرية المعقدة بدقة وتفاصيل أكبر. يمثل النموذج تقدماً كبيراً في الذكاء الاصطناعي لإنشاء الصور، متجاوزاً العرض الأساسي نحو العمل التصميمي الاستراتيجي.
يحسّن ChatGPT Images 2.0 اتباع التعليمات وتحديد موضع الكائنات وعرض النصوص عبر لغات متعددة. يمكن للنموذج توليد صور بدقة تصل إلى 2K في واجهة برمجة التطبيقات ويدعم نسب العرض إلى الارتفاع التي تتراوح من 3:1 بصيغة عريضة جداً إلى 1:3 بصيغة عمودية. يمكن للمستخدمين طلب أبعاد محددة في الأوامر أو الاختيار من خيارات محددة مسبقاً لإعادة توليد الصور بتخطيطات جديدة.
عرض النصوص متعدد اللغات المحسّن
يتضمن التحسن الرئيسي في ChatGPT Images 2.0 قدرات متعددة اللغات. يعرض النموذج الآن النصوص غير اللاتينية بدقة أكبر، خاصة في اللغات اليابانية والكورية والصينية والهندية والبنغالية. كانت الإصدارات السابقة تواجه صعوبات مع النصوص المعقدة أو الكثيفة باللغات غير الإنجليزية، لكن النموذج المحدّث ينتج مخرجات متماسكة بصرياً حيث تعمل اللغة كجزء من التصميم نفسه، من الملصقات والرسوم البيانية إلى القصص المصورة والشروحات.
يجعل هذا التقدم النموذج أكثر فائدة عالمياً للمبدعين الذين يعملون باللغات غير الإنجليزية. يمكن للنظام توليد تركيبات بصرية كاملة حيث يتدفق النص بشكل طبيعي ويندمج بسلاسة مع الصور، بدلاً من ترجمة التسميات المعزولة فقط.
قدرات التفكير والتكامل مع الويب
ChatGPT Images 2.0 هو أول نموذج صور من OpenAI يتمتع بقدرات التفكير. عندما يختار المستخدمون نموذج التفكير أو النموذج الاحترافي في ChatGPT، يمكن للنظام البحث على الويب عن معلومات في الوقت الفعلي وتوليد صور متعددة ومتميزة من أمر واحد والتحقق من مخرجاته الخاصة. تسمح هذه الميزة للنموذج بالتعامل مع مهام أكثر تعقيداً بأخذ وقت إضافي لفهم وتنفيذ الطلبات بشكل شامل.
يمكّن وضع التفكير المستخدمين من توليد ما يصل إلى ثماني صور متميزة في وقت واحد مع استمرارية الشخصيات والكائنات. يعالج تحسين سير العمل هذا العمليات المرهقة سابقاً، مثل إنشاء تسلسلات صفحات المانجا أو مفاهيم إعادة تصميم متعددة أو رسوميات وسائط اجتماعية بنسب عرض مختلفة ولغات متعددة.
الأنماط البصرية المحسّنة والواقعية الفوتوغرافية
يوضح النموذج دقة محسّنة بشكل كبير عبر الأنماط البصرية بما في ذلك الصور الفوتوغرافية والمشاهد السينمائية وفن البكسل والمانجا. يلتقط ChatGPT Images 2.0 الخصائص المحددة للصور، بما في ذلك العيوب الدقيقة التي تضيف واقعية. يحافظ على اتساق أكبر في الملمس والإضاءة والتكوين والتفاصيل الدقيقة عبر لغات بصرية مختلفة.
تثبت هذه القدرة فائدتها بشكل خاص في نماذج الألعاب والقصص المصورة والإبداعات التسويقية وإنشاء الأصول في وسائط أو أنواع محددة. ينتج النموذج مخرجات تعكس الأنماط المطلوبة بأمانة أكبر بدلاً من تقريبها.
التوفر والتسعير
ChatGPT Images 2.0 متاح فوراً لجميع مستخدمي ChatGPT و Codex. المخرجات المتقدمة مع قدرات التفكير متاحة لمشتركي ChatGPT Plus و Pro و Business. نموذج gpt-image-2 يمكن الوصول إليه من خلال واجهة برمجة التطبيقات، مع تباين التسعير بناءً على إعدادات الجودة والدقة المختارة.
يمكن للمطورين والشركات دمج النموذج في المنتجات من خلال واجهة برمجة التطبيقات، مما يضيف توليد صور عالي الجودة وتحرير الصور إلى سير العمل الموجود. تشمل حالات الاستخدام الإعلانات المحلية والرسوم البيانية والمحتوى التعليمي وأدوات التصميم والمنصات الإبداعية. المخرجات التي تتجاوز دقة 2K موجودة حالياً في مرحلة بيتا وقد تنتج نتائج غير متسقة في بعض الحالات.
القيود المعروفة
اعترفت OpenAI بأن ChatGPT Images 2.0 له قيود. يمكن للنموذج أن يواجه صعوبات في المهام التي تتطلب نموذج عالم فيزيائي كامل ومتماسك، مثل أدلة الأوريجامي أو ألغاز مكعب روبيك. قد تختبر التفاصيل البصرية الكثيفة جداً أو المتكررة، مثل حبيبات الرمل الدقيقة، حدود النموذج. قد تتطلب التسميات والرسوم البيانية مراجعة للدقة، خاصة عندما تعتمد على أسهم أو تسميات أجزاء دقيقة.
ذكرت الشركة أن هذه القيود تمثل حدوداً مهمة للتطوير المستقبلي. طبقت OpenAI تدابير أمان تشمل منع المخرجات الضارة والحماية القوية والتعزيز المستمر للحماية مع تطور القدرات والمخاطر.
