يثير التناقض بين النتائج القياسية من الطرف الأول والثالث لنموذج O3 AI من Openai أسئلة حول ممارسات الشفافية واختبار النماذج للشركة.
عندما كشفت Openai عن O3 في ديسمبر ، زعمت الشركة أن النموذج يمكن أن يجيب على ما يزيد قليلاً عن الأسئلة على FrontierMath ، وهي مجموعة صعبة من مشاكل الرياضيات. فجرت هذه النتيجة المنافسة بعيدًا-تمكن النموذج التالي من الإجابة على حوالي 2 ٪ فقط من مشاكل FrontierMath بشكل صحيح.
“اليوم ، تحتوي جميع العروض على أقل من 2 ٪ [on FrontierMath]قال مارك تشن ، كبير مسؤولي الأبحاث في Openai ، خلال فترة غامضة. “نحن نرى [internally]، مع O3 في إعدادات حساب وقت الاختبار العدوانية ، يمكننا الحصول على أكثر من 25 ٪. “
كما اتضح ، كان هذا الرقم على الأرجح حد أعلى ، يتحقق من إصدار من O3 مع المزيد من الحوسبة وراءه من النموذج Openai الذي تم إطلاقه علنًا الأسبوع الماضي.
أصدرت Epoch AI ، معهد الأبحاث وراء Frontiermath ، نتائج اختباراتها القياسية المستقلة لـ O3 يوم الجمعة. وجد Epoch أن O3 سجل حوالي 10 ٪ ، وهو أقل بكثير من أعلى درجة في Openai.
أصدرت Openai O3 ، نموذج التفكير المتوقع للغاية ، إلى جانب O4-MINI ، وهو نموذج أصغر وأرخص ينجح O3-MINI.
قمنا بتقييم النماذج الجديدة على جناحنا من معايير الرياضيات والعلوم. النتائج في الموضوع! pic.twitter.com/5gbtzkey1b
– عصر AI (epochairesearch) 18 أبريل 2025
هذا لا يعني Openai كذب ، في حد ذاته. النتائج القياسية التي نشرتها الشركة في ديسمبر تُظهر درجة أقل من ذلك تتوافق مع عصر النتيجة التي لوحظت. لاحظت Epoch أيضًا أن إعداد اختباره يختلف على الأرجح عن Openai ، وأنه استخدم إصدارًا محدثًا من FrontierMath لتقييمه.
“قد يكون الفرق بين نتائجنا و Openai بسبب التقييم Openai مع سقالة داخلية أكثر قوة ، باستخدام المزيد من وقت الاختبار [computing]أو لأن هذه النتائج تم تشغيلها على مجموعة فرعية مختلفة من FrontierMath (المشكلات 180 أمام Frontiermath-2024-11-26 مقابل 290 مشكلات في FrontierMath-2025-02-28-Private) ، “كتب Epoch.
وفقًا لـ Post on X من مؤسسة ARC Prize Foundation ، وهي منظمة اختبرت نسخة ما قبل الإصدار من O3 ، فإن نموذج O3 العام “هو نموذج مختلف […] تم ضبطه لاستخدام الدردشة/المنتج ، “تقرير تأكيد Epoch.
“جميع مستويات حساب O3 التي تم إصدارها أصغر من الإصدار الذي نحن [benchmarked]كتب “جائزة ARC”. بشكل عام ، من المتوقع أن يحقق مستويات حسابية أكبر لتحقيق درجات قياسية أفضل.
من المسلم به أن حقيقة أن الإصدار العام لـ O3 يتفوق على وعود اختبار Openai هو نقطة نقاط ، لأن نماذج O3-Mini-High و O4-MINI الخاصة بالشركة O3-MINI ، وتخطط Openai لتخطط Openai لأول مرة في O3-PRO ، في الأسابيع المقبلة.
ومع ذلك ، فمن الأفضل أن يتم أخذ معايير منظمة العفو الدولية الأخرى في القيمة الاسمية – خاصة عندما يكون المصدر شركة لديها خدمات للبيع.
أصبحت القياس “الخلافات” أمرًا شائعًا في صناعة الذكاء الاصطناعى حيث يتسابق البائعون لالتقاط العناوين الرئيسية والعقلية مع نماذج جديدة.
في يناير ، تم انتقاد Epoch لانتظار الكشف عن التمويل من Openai حتى بعد إعلان الشركة O3. لم يتم إبلاغ العديد من الأكاديميين الذين ساهموا في FrontierMath بمشاركة Openai حتى تم الإعلان عنها.
في الآونة الأخيرة ، اتُهم Xai من Elon Musk بنشر المخططات القياسية المضللة لأحدث طراز AI ، Grok 3. هذا الشهر فقط ، اعترفت Meta بتقديم الدرجات القياسية لإصدار من طراز يختلف عن النموذج الذي توفره الشركة للمطورين.
اكتشاف المزيد من مؤسسة اشراق العالم لتقنية المعلومات-خدمات مواقع ومتاجر الإنترنت
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.