هل كذب XAI حول معايير Grok 3؟

المناقشات حول معايير الذكاء الاصطناعى – وكيف يتم الإبلاغ عنها من قبل AI Labs – تتسرب إلى الرأي العام.

هذا الأسبوع ، اتهم موظف Openai شركة AI Elon Musk ، XAI ، بنشر النتائج المرتبطة بأحدث طراز AI ، Grok 3. أحد المؤسسين المشاركين في Xai ، Igor Babushkin ، أصر على أن الشركة كانت في اليمين.

الحقيقة تقع في مكان ما بينهما.

في منشور على مدونة XAI ، نشرت الشركة رسمًا بيانيًا يوضح أداء Grok 3 في AIME 2025 ، وهي مجموعة من أسئلة الرياضيات الصعبة من امتحان الرياضيات الدعائي حديث. شكك بعض الخبراء في صحة AIME كمعيار لمنظمة العفو الدولية. ومع ذلك ، يتم استخدام الإصدارات AIME 2025 أو الأقدم من الاختبار بشكل شائع للتحقيق في قدرة الرياضيات في النموذج.

أظهر الرسم البياني لـ Xai نوعين من Grok 3 و Grok 3 Beta Beta و Grok 3 Mini Reasoning ، متغلبًا على أفضل الأداء المتاح في Openai ، O3-Mini-High ، في Aime 2025. لم تتضمن درجة O3-Mini-High’s Aime 2025 في “Cons@64”.

ما هو سلبيات@64 ، قد تسأل؟ حسنًا ، إنه قصير بالنسبة لـ “الإجماع@64” ، ويعطي بشكل أساسي نموذج 64 يحاول الإجابة على كل مشكلة في معيار ويأخذ الإجابات التي تم إنشاؤها بشكل متكرر كإجابات نهائية. كما يمكنك أن تتخيل ، تميل Cons@64 إلى زيادة الدرجات القياسية للموديلات قليلاً ، وحذفها من الرسم البياني قد تجعلها تبدو كما لو أن أحد الطرازات يتجاوز نموذجًا آخر عندما يكون هذا هو الحال في الواقع.

Grok 3 Reasying Beta و Grok 3 Mini Reasoning Scores for Aime 2025 في “@1”-مما يعني أن النتيجة الأولى التي حصلت عليها النماذج في المعيار-تقل عن درجة O3-Mini عالية. يتتبع Grok 3 Beansing Beta أيضًا بشكل كبير خلف طراز O1 الخاص بـ Openai الذي تم تعيينه على الحوسبة “المتوسطة”. ومع ذلك ، فإن Xai تعلن Grok 3 باعتباره “أذكى الذكاء الاصطناعي في العالم”.

جادل Babushkin على X أن Openai قد نشرت مخططات قياسية مضللة بالمثل في الماضي – وإن كانت مخططات تقارن أداء نماذجها الخاصة. وضع حفلة أكثر حيادية في النقاش رسمًا بيانيًا “دقة” أكثر توضح أداء كل طراز تقريبًا في Cons@64:

فرحان كيف يرى بعض الناس مؤامرة على أنها هجوم على Openai والبعض الآخر كهجوم على Grok بينما في الواقع هو دعاية Deepseek
(أعتقد في الواقع أن Grok يبدو جيدًا هناك ، ويستحق TTC chicanery من Openai خلف O3-Mini-*High*-pass@”” “1 ″” “المزيد من التدقيق.) https://t.co/djqljpcjh8 pic.twitter.com/3wh8foufic

– Teortaxes ▶ ️ (Deepseek 推特🐋铁粉 2023 – ∞) (TEORTAXESTEX) 20 فبراير 2025

ولكن كما أشار باحث AI ناثان لامبرت في منشور ، ربما يظل المقياس الأكثر أهمية لغزا: التكلفة الحسابية (والنقدية) التي استغرقتها لكل نموذج لتحقيق أفضل درجة. هذا يوضح فقط لم يعلم معظم معايير الذكاء الاصطناعي قيود النماذج – ونقاط قوتها.

Source link

مرتبط

اكتشاف المزيد من مؤسسة اشراق العالم لتقنية المعلومات-خدمات مواقع ومتاجر الإنترنت

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

قائمة 20 موقع

قائمة 50 موقع

قائمة 100 موقع

قائمة 20 موقع

قائمة 50 موقع

قائمة 100 موقع

معجب بهذه:

مرتبط

اكتشاف المزيد من مؤسسة اشراق العالم لتقنية المعلومات-خدمات مواقع ومتاجر الإنترنت

شارك بتعليقك إلغاء الرد

اشراق العالم

اعلانات الباك لينك

منصة اشراق لنك

تحسين seo

قبل أن تذهب!

هل كذب XAI حول معايير Grok 3؟

معجب بهذه:

مرتبط

اكتشاف المزيد من مؤسسة اشراق العالم لتقنية المعلومات-خدمات مواقع ومتاجر الإنترنت

يقول الخبراء إن استغلال Anthropic’s Fable ليس هو السبب الذي جعل Kimi K3 جيدًا

يعتقد نيل ريمر أن أموال الذكاء الاصطناعي ستعود

التنقل TechCrunch: إنذار روبوتاكسي

شارك بتعليقك إلغاء الرد

اكتشاف المزيد من مؤسسة اشراق العالم لتقنية المعلومات-خدمات مواقع ومتاجر الإنترنت

قبل أن تذهب!