تركز نماذج GPT-4.1 AI الجديدة من Openai على الترميز

أطلقت Openai يوم الاثنين عائلة جديدة من النماذج تسمى GPT-4.1. نعم ، “4.1” – كما لو أن تسمية الشركة لم تكن مربكة بما فيه الكفاية بالفعل.

هناك GPT-4.1 و GPT-4.1 Mini و GPT-4.1 Nano ، وكلها يقول Openai “Excel” في الترميز والتعليم. تتوفر النماذج متعددة الوسائط من خلال API من Openai ولكن ليس ChatGPT ، والتي تحتوي على نافذة سياق ملايين الملايين ، مما يعني أنها يمكن أن تأخذ ما يقرب من 750،000 كلمة في واحدة (أطول من “الحرب والسلام”).

يصل GPT-4.1 إلى منافسي Openai مثل Google و Ratchet الجهود المبذولة لبناء نماذج برمجة متطورة. تحتل Gemini 2.5 Pro التي تم إصدارها مؤخرًا ، والتي تحتوي أيضًا على نافذة سياق بقيمة ملايين الملايين ، على معايير الترميز الشائعة. وكذلك الأمر بالنسبة إلى كلود 3.7 Sonnet’s Hothropic’s Claude 3.7 من AI الصيني ، V3.

إنه هدف العديد من عمالقة التكنولوجيا ، بما في ذلك Openai ، لتدريب نماذج ترميز الذكاء الاصطناعى القادرة على أداء مهام هندسة البرمجيات المعقدة. يتمثل طموح Openai الكبير في إنشاء “مهندس برمجيات وكيل” ، كما وضعه CFO Sarah Friar خلال قمة تقنية في لندن الشهر الماضي. تؤكد الشركة أن نماذجها المستقبلية ستكون قادرة على برمجة التطبيقات بأكملها من طرف إلى طرف ، والتعامل مع جوانب مثل ضمان الجودة ، واختبار الأخطاء ، وكتابة الوثائق.

GPT-4.1 هي خطوة في هذا الاتجاه.

“لقد قمنا بتحسين GPT-4.1 للاستخدام في العالم الحقيقي استنادًا إلى ردود الفعل المباشرة للتحسين في المجالات التي يهتم بها المطورين أكثر: ترميز الواجهة الأمامية ، وإجراء عدد أقل من التعديلات الخارجية ، واتباع التنسيقات بشكل موثوق ، والالتزام ببنية الاستجابة والترتيب ، واستخدام الأدوات المتسق ، والمزيد” ، أخبر متحدث باسم Openai TechCrunch عبر البريد الإلكتروني. “هذه التحسينات تمكن المطورين من إنشاء وكلاء أفضل بكثير في مهام هندسة البرمجيات في العالم الحقيقي.”

يدعي Openai أن نموذج GPT-4.1 الكامل يتفوق على طرز GPT-4O و GPT-4O المصغرة على معايير الترميز بما في ذلك SWE-BENCE. يقال إن GPT-4.1 Mini و Nano أكثر كفاءة وأسرع على حساب بعض الدقة ، حيث يقول Openai إن GPT-4.1 Nano هو أسرع وأرخص نموذج على الإطلاق.

تكلف GPT-4.1 2 دولار لكل مليون رموز إدخال و 8 دولارات لكل مليون رموز الإخراج. تبلغ الرموز المميزة لـ GPT-4.1 Mini 0.40 دولار/م رموز إدخال 1.60 دولار/م ، و Nano GPT-4.1 هي رموز إدخال 0.10 دولار/م $ ورموز إخراج 0.40 دولار/م.

وفقًا للاختبار الداخلي لشركة Openai ، GPT-4.1 ، التي يمكن أن تولد المزيد من الرموز في وقت واحد من GPT-4O (32،768 مقابل 16،384) ، وسجل ما بين 52 ٪ و 54.6 ٪ على SWE-bench ، وهي مجموعة فرعية من البندقية البشرية. (لاحظت Openai في منشور مدونة أن بعض الحلول لمشكلات تم التحقق منها SWE على البنية التحتية لا يمكن تشغيلها على بنيتها التحتية ، وبالتالي فإن نطاق الدرجات.) هذه الأرقام تخضع قليلاً تحت الدرجات التي أبلغ عنها Google و Nothropic لـ Gemini 2.5 Pro (63.8 ٪) و Claude 3.7 Sonnet (62.3 ٪) ، على التوالي ، على نفس المنوال.

في تقييم منفصل ، بحث Openai GPT-4.1 باستخدام الفيديو MME ، والذي تم تصميمه لقياس قدرة النموذج على “فهم” المحتوى في مقاطع الفيديو. وصل GPT-4.1 إلى دقة 72 ٪ في فئة “Long ، No Subtitles” ، يدعي Openai.

على الرغم من أن GPT-4.1 يسجل جيدًا بشكل معقول على المعايير ولديه “قطع المعرفة” الأكثر حداثة ، مما يمنحه إطارًا مرجعيًا أفضل للأحداث الجارية (حتى يونيو 2024) ، من المهم أن تضع في اعتبارك أنه حتى بعض أفضل النماذج اليوم تكافح مع المهام التي لن تتجول في الخبراء. على سبيل المثال ، أظهرت العديد من الدراسات أن نماذج توليد الكود غالباً ما تفشل في إصلاح ، وحتى تقديم الثغرات الأمنية والأخطاء.

يعترف Openai ، أيضًا ، بأن GPT-4.1 يصبح أقل موثوقية (أي المرافق لارتكاب أخطاء) كلما زادت رموز المدخلات التي يتعين عليها التعامل معها. في أحد اختبارات الشركة الخاصة ، Openai-MRCR ، انخفضت دقة النموذج من حوالي 84 ٪ مع 8000 رمز إلى 50 ٪ مع مليون رمز. تقول الشركة GPT-4.1 أيضًا إلى أن تكون “حرفية” أكثر من GPT-4O ، مما يستلزم أحيانًا مطالبات أكثر تحديدًا وصريحة.

Source link

مرتبط

اكتشاف المزيد من مؤسسة اشراق العالم لتقنية المعلومات-خدمات مواقع ومتاجر الإنترنت

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

قائمة 17 موقع

قائمة 20 موقع

قائمة 30 موقع

باقة 40 موقع

قائمة 50 موقع

قائمة 60 موقع

قائمة 70 موقع

قائمة 80 موقع

قائمة 90 موقع

قائمة 100 موقع