أطلقت Openai يوم الاثنين عائلة جديدة من النماذج تسمى GPT-4.1. نعم ، “4.1” – كما لو أن تسمية الشركة لم تكن مربكة بما فيه الكفاية بالفعل.
هناك GPT-4.1 و GPT-4.1 Mini و GPT-4.1 Nano ، وكلها يقول Openai “Excel” في الترميز والتعليم. تتوفر النماذج متعددة الوسائط من خلال API من Openai ولكن ليس ChatGPT ، والتي تحتوي على نافذة سياق ملايين الملايين ، مما يعني أنها يمكن أن تأخذ ما يقرب من 750،000 كلمة في واحدة (أطول من “الحرب والسلام”).
يصل GPT-4.1 إلى منافسي Openai مثل Google و Ratchet الجهود المبذولة لبناء نماذج برمجة متطورة. تحتل Gemini 2.5 Pro التي تم إصدارها مؤخرًا ، والتي تحتوي أيضًا على نافذة سياق بقيمة ملايين الملايين ، على معايير الترميز الشائعة. وكذلك الأمر بالنسبة إلى كلود 3.7 Sonnet’s Hothropic’s Claude 3.7 من AI الصيني ، V3.
إنه هدف العديد من عمالقة التكنولوجيا ، بما في ذلك Openai ، لتدريب نماذج ترميز الذكاء الاصطناعى القادرة على أداء مهام هندسة البرمجيات المعقدة. يتمثل طموح Openai الكبير في إنشاء “مهندس برمجيات وكيل” ، كما وضعه CFO Sarah Friar خلال قمة تقنية في لندن الشهر الماضي. تؤكد الشركة أن نماذجها المستقبلية ستكون قادرة على برمجة التطبيقات بأكملها من طرف إلى طرف ، والتعامل مع جوانب مثل ضمان الجودة ، واختبار الأخطاء ، وكتابة الوثائق.
GPT-4.1 هي خطوة في هذا الاتجاه.
“لقد قمنا بتحسين GPT-4.1 للاستخدام في العالم الحقيقي استنادًا إلى ردود الفعل المباشرة للتحسين في المجالات التي يهتم بها المطورين أكثر: ترميز الواجهة الأمامية ، وإجراء عدد أقل من التعديلات الخارجية ، واتباع التنسيقات بشكل موثوق ، والالتزام ببنية الاستجابة والترتيب ، واستخدام الأدوات المتسق ، والمزيد” ، أخبر متحدث باسم Openai TechCrunch عبر البريد الإلكتروني. “هذه التحسينات تمكن المطورين من إنشاء وكلاء أفضل بكثير في مهام هندسة البرمجيات في العالم الحقيقي.”
يدعي Openai أن نموذج GPT-4.1 الكامل يتفوق على طرز GPT-4O و GPT-4O المصغرة على معايير الترميز بما في ذلك SWE-BENCE. يقال إن GPT-4.1 Mini و Nano أكثر كفاءة وأسرع على حساب بعض الدقة ، حيث يقول Openai إن GPT-4.1 Nano هو أسرع وأرخص نموذج على الإطلاق.
تكلف GPT-4.1 2 دولار لكل مليون رموز إدخال و 8 دولارات لكل مليون رموز الإخراج. تبلغ الرموز المميزة لـ GPT-4.1 Mini 0.40 دولار/م رموز إدخال 1.60 دولار/م ، و Nano GPT-4.1 هي رموز إدخال 0.10 دولار/م $ ورموز إخراج 0.40 دولار/م.
وفقًا للاختبار الداخلي لشركة Openai ، GPT-4.1 ، التي يمكن أن تولد المزيد من الرموز في وقت واحد من GPT-4O (32،768 مقابل 16،384) ، وسجل ما بين 52 ٪ و 54.6 ٪ على SWE-bench ، وهي مجموعة فرعية من البندقية البشرية. (لاحظت Openai في منشور مدونة أن بعض الحلول لمشكلات تم التحقق منها SWE على البنية التحتية لا يمكن تشغيلها على بنيتها التحتية ، وبالتالي فإن نطاق الدرجات.) هذه الأرقام تخضع قليلاً تحت الدرجات التي أبلغ عنها Google و Nothropic لـ Gemini 2.5 Pro (63.8 ٪) و Claude 3.7 Sonnet (62.3 ٪) ، على التوالي ، على نفس المنوال.
في تقييم منفصل ، بحث Openai GPT-4.1 باستخدام الفيديو MME ، والذي تم تصميمه لقياس قدرة النموذج على “فهم” المحتوى في مقاطع الفيديو. وصل GPT-4.1 إلى دقة 72 ٪ في فئة “Long ، No Subtitles” ، يدعي Openai.
على الرغم من أن GPT-4.1 يسجل جيدًا بشكل معقول على المعايير ولديه “قطع المعرفة” الأكثر حداثة ، مما يمنحه إطارًا مرجعيًا أفضل للأحداث الجارية (حتى يونيو 2024) ، من المهم أن تضع في اعتبارك أنه حتى بعض أفضل النماذج اليوم تكافح مع المهام التي لن تتجول في الخبراء. على سبيل المثال ، أظهرت العديد من الدراسات أن نماذج توليد الكود غالباً ما تفشل في إصلاح ، وحتى تقديم الثغرات الأمنية والأخطاء.
يعترف Openai ، أيضًا ، بأن GPT-4.1 يصبح أقل موثوقية (أي المرافق لارتكاب أخطاء) كلما زادت رموز المدخلات التي يتعين عليها التعامل معها. في أحد اختبارات الشركة الخاصة ، Openai-MRCR ، انخفضت دقة النموذج من حوالي 84 ٪ مع 8000 رمز إلى 50 ٪ مع مليون رمز. تقول الشركة GPT-4.1 أيضًا إلى أن تكون “حرفية” أكثر من GPT-4O ، مما يستلزم أحيانًا مطالبات أكثر تحديدًا وصريحة.
Source link
اكتشاف المزيد من مؤسسة اشراق العالم لتقنية المعلومات-خدمات مواقع ومتاجر الإنترنت
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.