هذا الأسبوع في الذكاء الاصطناعي: ربما يجب أن نتجاهل معايير الذكاء الاصطناعي في الوقت الحالي

مرحبًا بك في النشرة الإخبارية العادية لـ TechCrunch! نحن نذهب إلى حد بعيد ، ولكن يمكنك العثور على جميع تغطية الذكاء الاصطناعي لدينا ، بما في ذلك الأعمدة ، وتحليلنا اليومي ، وقصص الأخبار العاجلة ، في TechCrunch. إذا كنت تريد تلك القصص وأكثر من ذلك بكثير في صندوق الوارد الخاص بك كل يوم ، فقم بالتسجيل في النشرات الإخبارية اليومية هنا.

هذا الأسبوع ، أصدرت شركة الملياردير Elon Musk’s AI Startup ، XAI ، أحدث طراز AI الرائد ، Grok 3 ، الذي يعمل على تشغيل تطبيقات Grok chatbot الخاصة بالشركة. تم تدريب النموذج على حوالي 200000 من وحدات معالجة الرسومات ، ويتفوق على عدد من النماذج الرائدة الأخرى ، بما في ذلك من Openai ، على معايير الرياضيات والبرمجة والمزيد.

ولكن ماذا تخبرنا هذه المعايير حقًا؟

هنا في TC ، غالبًا ما نقوم بالإبلاغ عن الأرقام القياسية على مضض لأنها واحدة من الطرق الموحدة القليلة (نسبيًا) التي تقيسها صناعة الذكاء الاصطناعي تحسينات نموذجية. تميل معايير الذكاء الاصطناعى الشعبية إلى اختبار المعرفة الباطنية ، وإعطاء درجات إجمالية ترتبط بشكل سيء بالكفاءة في المهام التي يهتم بها معظم الناس.

كما أشار أستاذ وارتون إيثان موليك في سلسلة من المنشورات على X بعد كشف النقاب عن Grok 3 يوم الاثنين ، هناك “حاجة ملحة لبطاريات أفضل من الاختبارات وسلطات الاختبارات المستقلة”. تتعلق شركة AI Companies Self Select Sendark في كثير من الأحيان ، كما ألمح Mollick ، مما يجعل هذه النتائج أكثر صرامة لقبولها بالقيمة الاسمية.

وكتب موليك: “المعايير العامة كلاهما” مه “ومشبع ، مما يترك الكثير من اختبارات الذكاء الاصطناعي ليكون مثل مراجعات الطعام ، بناءً على الذوق”. “إذا كانت الذكاء الاصطناعي أمرًا بالغ الأهمية للعمل ، فنحن بحاجة إلى المزيد.”

لا يوجد نقص في الاختبارات والمؤسسات المستقلة التي تقترح معايير جديدة لمنظمة العفو الدولية ، ولكن ميزةها النسبية بعيدة عن المسألة المستقرة في هذه الصناعة. يقترح بعض المعلقين والخبراء من الذكاء الاصطناعي مواءمة المعايير مع التأثير الاقتصادي لضمان فائدتها ، بينما يجادل آخرون بأن التبني والفائدة هما المعايير النهائية.

قد يغضب هذا النقاش حتى نهاية الوقت. ربما ينبغي لنا بدلاً من ذلك ، كما يصف مستخدم X Roon ، ببساطة إيلاء اهتمام أقل للنماذج والمعايير الجديدة التي تحظر اختراقات فنية من الذكاء الاصطناعى. من أجل عقلنا الجماعي ، قد لا يكون ذلك هو أسوأ فكرة ، حتى لو كان يحفز مستوى من AI FOMO.

كما ذكر أعلاه ، هذا الأسبوع في الذكاء الاصطناعى يحدث في توقف. شكرا للالتزام معنا ، القراء ، من خلال هذه السفينة الدوارة في رحلة. حتى المرة القادمة.

أخبار

ائتمانات الصورة:ناثان لاين / بلومبرج / غيتي إيم.

يحاول Openai إلى “uncensor” chatgpt: كتب ماكس عن كيفية تغيير Openai إلى نهج تنمية الذكاء الاصطناعي لتبني “الحرية الفكرية” صراحة ، بغض النظر عن مدى تحدي أو إثارة للجدل.

بدء تشغيل ميرا الجديد: تعتزم شركة Openai CTO Mirati الجديدة ، LABLE Machines Lab ، إنشاء أدوات “جعل منظمة العفو الدولية تعمل من أجلها [people’s] الاحتياجات والأهداف الفريدة. “

Grok 3 Cometh: أصدرت شركة Elon Musk’s AI Startup ، XAI ، أحدث طراز AI الرائد ، Grok 3 ، وكشفت عن إمكانيات جديدة لتطبيقات Grok لنظام iOS والويب.

مؤتمر لاما جدا: ستستضيف Meta أول مؤتمر للمطورين المخصص لعلاق الذكاء الاصطناعى التوليدي هذا الربيع. يسمى Llamacon بعد عائلة Llama في Meta من نماذج الذكاء الاصطناعى التوليدي ، ومن المقرر عقد المؤتمر في 29 أبريل.

منظمة العفو الدولية والسيادة الرقمية في أوروبا: قام بول بتعيين Openeurollm ، وهو تعاون بين حوالي 20 منظمة لبناء “سلسلة من نماذج الأساس ل AI شفافة في أوروبا” التي تحافظ على “التنوع اللغوي والثقافي” لجميع لغات الاتحاد الأوروبي.

ورقة البحث في الأسبوع

يظهر موقع Openai Chatgpt على شاشة الكمبيوتر المحمول في صورة التوضيح هذه. — **ائتمانات الصورة:**Jakub Porzycki / Nurphoto / Getty Images

قام باحثو Openai بإنشاء معيار جديد من الذكاء الاصطناعي ، Swe-Lancer ، يهدف إلى تقييم براعة ترميز أنظمة الذكاء الاصطناعى القوية. يتكون المعيار من أكثر من 1400 مهمة هندسة البرمجيات المستقلة التي تتراوح من إصلاحات الأخطاء ونشر الميزات إلى مقترحات التنفيذ الفني “على مستوى المدير”.

وفقًا لـ Openai ، فإن نموذج الذكاء الاصطناعى الأفضل أداءً ، كلود 3.5 Sonnet من الإنسان ، يسجل 40.3 ٪ على معيار SWE-Lancer الكامل-مما يشير إلى أن الذكاء الاصطناعي لديه طرق كبيرة للذهاب. تجدر الإشارة إلى أن الباحثين لم يقمنوا بتقييم النماذج الأحدث مثل O3-Mini من Openai أو شركة AI الصينية Deepseek’s R1.

نموذج الأسبوع

أصدرت شركة منظمة العفو الدولية الصينية تدعى Stepfun نموذجًا “مفتوحًا” ، وهو STEP-Audio ، يمكنه فهم الكلام وتوليده بعدة لغات. تدعم STEP-Audio الصينية والإنجليزية واليابانية وتتيح للمستخدمين ضبط العاطفة وحتى لهجة الصوت الاصطناعي الذي يخلقه ، بما في ذلك الغناء.

تعتبر Stepfun واحدة من العديد من الشركات الناشئة الصينية الممولة جيدًا لإطلاق النماذج تحت رخصة متساهلة. تأسست شركة Stepfun في عام 2023 ، وأغلقت مؤخرًا جولة تمويل بقيمة عدة مائة مليون دولار من مجموعة من المستثمرين الذين تشمل شركات الأسهم الخاصة الصينية المملوكة للدولة.

الاستيلاء على حقيبة

NOUS Research Deephermes — **ائتمانات الصورة:**بحث nous

أصدرت Nous Research ، وهي مجموعة أبحاث منظمة العفو الدولية ، ما تدعي أنه أحد نماذج الذكاء الاصطناعى الأولى التي توضح المنطق و “إمكانيات نموذج اللغة البديهية”.

يمكن للنموذج ، معاينة Deephermes-3 ، تبديل وإيقاف “سلاسل فكرية” طويلة لتحسين الدقة على حساب بعض الثقل الحسابي. في وضع “التفكير” ، معاينة DeepHermes-3 ، على غرار نماذج الذكاء الاصطناعي الأخرى ، “يفكر” لفترة أطول لمشاكل أصعب وتظهر أن عملية التفكير الخاصة بها للوصول إلى الإجابة.

وبحسب ما ورد تخطط الأنثروبور لإصدار نموذج مشابه من الناحية المعمارية قريبًا ، وقالت Openai إن مثل هذا النموذج على خريطة الطريق على المدى القريب.

Source link

مرتبط

اكتشاف المزيد من مؤسسة اشراق العالم لتقنية المعلومات-خدمات مواقع ومتاجر الإنترنت

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

قائمة 17 موقع

قائمة 20 موقع

قائمة 30 موقع

باقة 40 موقع

قائمة 50 موقع

قائمة 60 موقع

قائمة 70 موقع

قائمة 80 موقع

قائمة 90 موقع

قائمة 100 موقع