أطلقت Anthropic نموذج Claude Opus 4.7، وهو أحدث نماذج الذكاء الاصطناعي التابعة للشركة، ويتوفر الآن عبر جميع منتجات Claude وواجهة برمجة التطبيقات Claude وAmazon Bedrock وGoogle Cloud’s Vertex AI وMicrosoft Foundry. يمثل النموذج تحسناً كبيراً على سابقه Opus 4.6، خاصة في مجالات هندسة البرمجيات المتقدمة والمهام البرمجية المعقدة التي كانت تتطلب إشرافاً بشرياً وثيقاً في السابق.
يتعامل النموذج مع المهام المعقدة والطويلة الأجل بتناسق ويولي اهتماماً دقيقاً للتعليمات. يفيد المستخدمون بأنهم يستطيعون تفويض أصعب أعمالهم البرمجية إلى Claude Opus 4.7 بثقة. يقوم النظام بابتكار طرق للتحقق من مخرجاته قبل الإبلاغ عن النتائج، مما يقلل الحاجة إلى دورات المراجعة اليدوية.
قدرات الرؤية والمعالجة متعددة الأنماط المحسّنة
يتضمن Claude Opus 4.7 قدرات رؤية محسّنة بشكل كبير. يمكن للنموذج الآن معالجة الصور حتى 2,576 بكسل على الحافة الطويلة، حوالي 3.75 ميجابكسل، أي أكثر من ثلاثة أضعاف دقة نماذج Claude السابقة. يتيح هذا التحسين حالات استخدام جديدة بما في ذلك وكلاء الحاسوب الآلي الذين يقرؤون لقطات الشاشة الكثيفة واستخراج البيانات من الرسوم البيانية المعقدة والعمل الذي يتطلب مراجع بصرية دقيقة.
يُظهر النموذج فهماً متعدد الأنماط أقوى عبر عدة مجالات. أفاد المختبرون الأوائل بتحسينات في قراءة الهياكل الكيميائية وتفسير الرسوم البيانية التقنية المعقدة. بالنسبة للمهام المهنية، ينتج Claude Opus 4.7 واجهات وشرائح ومستندات عالية الجودة مع مخرجات أكثر ذوقاً وإبداعاً.
تحسينات الأداء عبر المعايير
يُظهر Claude Opus 4.7 مكاسب قابلة للقياس عبر مجموعة من معايير التقييم. على معيار برمجي يضم 93 مهمة، حقق النموذج تحسناً بنسبة 13 في المائة على Opus 4.6، بما في ذلك أربع مهام لم يتمكن Opus 4.6 ولا Sonnet 4.6 من حلها. يُظهر النموذج زمن استجابة متوسط أسرع مع اتباع صارم للتعليمات، مما يجعله فعالاً بشكل خاص لسير العمل البرمجي المعقد والطويل الأجل.
في معايير وكيل البحث، حقق Claude Opus 4.7 درجة 0.715 عبر ستة وحدات، متساوياً في أعلى درجة إجمالية. على وحدة General Finance، أكبر فئة تقييم، حقق درجة 0.813 مقابل 0.767 لـ Opus 4.6. يُظهر النموذج أيضاً أداءً محسّناً في مهام المنطق الاستنتاجي، وهي منطقة كان Opus 4.6 يكافح فيها. بالنسبة لتطبيقات الأمن السيبراني، يحل النموذج 3 أضعاف مهام الإنتاج أكثر من Opus 4.6 على تقييم Rakuten-SWE-Bench.
ضمانات الأمن السيبراني وبرنامج التحقق
طبقت Anthropic ضمانات متعمدة أثناء تطوير Claude Opus 4.7. جربت الشركة جهوداً لتقليل قدرات النموذج في مجال الأمن السيبراني بشكل تفاضلي مقارنة بنموذجها الأقوى Claude Mythos Preview. يتضمن الإصدار الكشف التلقائي والحجب للطلبات التي تشير إلى استخدامات أمنية محظورة أو عالية المخاطر.
يمكن لمتخصصي الأمن الذين يسعون لاستخدام Claude Opus 4.7 لأغراض أمن سيبراني شرعية، مثل بحث الثغرات واختبار الاختراق والاختبار الأحمر، الانضمام إلى برنامج Cyber Verification Program الجديد من Anthropic. يسمح هذا النهج للشركة بجمع بيانات النشر الفعلي على الضمانات قبل الإصدار الأوسع للنماذج الأكثر قدرة.
التسعير والتوفر
يحافظ Claude Opus 4.7 على نفس هيكل التسعير مثل Opus 4.6: 5 دولارات لكل مليون رمز إدخال و25 دولاراً لكل مليون رمز إخراج. يمكن للمطورين الوصول إلى النموذج عبر واجهة برمجة تطبيقات Claude باستخدام المعرّف claude-opus-4-7. يتوفر النموذج فوراً عبر جميع منصات السحابة الرئيسية ومنتجات Claude.
قدمت Anthropic مستوى جهد جديد xhigh بين high و max، مما يمنح المستخدمين تحكماً أدق في المقايضة بين عمق التفكير وزمن استجابة الاستجابة. في Claude Code، تم رفع مستوى الجهد الافتراضي إلى xhigh لجميع الخطط. أطلقت الشركة أيضاً ميزانيات المهام في الإصدار التجريبي العام، مما يسمح للمطورين بتوجيه إنفاق الرموز وأولويات العمل عبر الأشغال الأطول.
اعتبارات الترحيل
Claude Opus 4.7 هو ترقية مباشرة لـ Opus 4.6، لكن تغييرين تقنيين يؤثران على استخدام الرموز. أولاً، يستخدم النموذج معالج رموز محدثاً يحسّن معالجة النصوص. يمكن لنفس الإدخال أن يُعيّن إلى 1.0 إلى 1.35 مرة أكثر من الرموز حسب نوع المحتوى. ثانياً، يقوم Claude Opus 4.7 بمزيد من التفكير في مستويات الجهد الأعلى، خاصة في الأدوار اللاحقة في الإعدادات الوكيلة، مما يحسّن الموثوقية في المشاكل الصعبة لكنه يزيد من رموز الإخراج.
يمكن للمستخدمين التحكم في استخدام الرموز من خلال معامل الجهد أو ميزانيات المهام أو بطلب النموذج للحصول على استجابات أكثر إيجازاً. أظهرت الاختبارات الداخلية لـ Anthropic تأثيرات صافية مواتية على استخدام الرموز عبر جميع مستويات الجهد في التقييمات البرمجية، على الرغم من أن الشركة توصي بقياس الفروقات على حركة المرور الفعلية قبل الترحيل الكامل.
تقييم السلامة والمحاذاة
يُظهر Claude Opus 4.7 ملف تعريف أمان مشابهاً لـ Opus 4.6، مع معدلات منخفضة من السلوك المثير للقلق بما في ذلك الخداع والمجاملة والتعاون مع الإساءة. على مقاييس مثل الصدق والمقاومة لهجمات حقن الأوامر الخبيثة، يُظهر النموذج تحسناً على Opus 4.6. خلصت تقييمات المحاذاة من Anthropic إلى أن النموذج “محاذى بشكل كبير وجدير بالثقة، على الرغم من أنه ليس مثالياً تماماً في سلوكه.”
يُظهر نموذج الذكاء الاصطناعي تحسينات متواضعة في عمليات التدقيق السلوكي الآلي مقارنة بـ Opus 4.6 و Sonnet 4.6، على الرغم من أن Claude Mythos Preview من Anthropic يبقى النموذج الأفضل محاذاة وفقاً لتقييمات الشركة. تظهر تفاصيل السلامة الكاملة في Claude Opus 4.7 System Card.
