تعد نماذج Openai التي تم إطلاقها مؤخرًا O3 و O4-Mini AI على أحدث طرازات في كثير من النواحي. ومع ذلك ، فإن النماذج الجديدة لا تزال هلوسة ، أو تصنع الأمور – في الواقع ، إنها هلوسة أكثر من العديد من النماذج القديمة في Openai.
لقد أثبتت الهلوسة أنها واحدة من أكبر وأصعب المشكلات التي يجب حلها في الذكاء الاصطناعي ، مما يؤثر حتى على أنظمة اليوم أفضل الأداء. تاريخيا ، تحسن كل نموذج جديد قليلاً في قسم الهلوسة ، وهو هلوس أقل من سابقتها. ولكن لا يبدو أن هذا هو الحال بالنسبة لـ O3 و O4-Mini.
وفقًا للاختبارات الداخلية لـ Openai ، O3 و O4-MINI ، والتي هي نماذج التفكير المزعومة ، الهلوسة في كثير من الأحيان من نماذج التفكير السابقة للشركة-O1 و O1-MINI و O3-MINI-بالإضافة إلى نماذج Openai التقليدية ، “غير المتصاعدة” ، مثل GPT-4O.
ربما أكثر فيما يتعلق ، صانع ChatGpt لا يعرف حقًا سبب حدوثه.
في تقريرها الفني لـ O3 و O4-MINI ، كتب Openai أن “هناك حاجة إلى مزيد من الأبحاث” لفهم سبب تزداد الهلوسة لأنها تضع نماذج التفكير. أداء O3 و O4-MINI بشكل أفضل في بعض المناطق ، بما في ذلك المهام المتعلقة بالترميز والرياضيات. ولكن نظرًا لأنهم “يقدمون المزيد من المطالبات بشكل عام” ، فغالبًا ما يؤديهم إلى تقديم “مطالبات أكثر دقة بالإضافة إلى مطالبات غير دقيقة/ملموسة ، وفقًا للتقرير.
وجد Openai أن O3 هلوسة استجابة ل 33 ٪ من الأسئلة على Personqa ، المعيار الداخلي للشركة لقياس دقة معرفة النموذج حول الناس. هذا هو ضعف معدل الهلوسة تقريبًا لنماذج التفكير السابقة في Openai ، O1 و O3-MINI ، والتي سجلت 16 ٪ و 14.8 ٪ على التوالي. لم يكن O4-Mini أسوأ على Personqa-هلوس 48 ٪ من الوقت.
وجد اختبار الطرف الثالث عن طريق ترجمة مختبر أبحاث الذكاء الاصطناعي غير الربحي ، دليلًا على أن O3 لديه ميل إلى تعويض الإجراءات التي اتخذتها في عملية الوصول إلى الإجابات. في أحد الأمثلة ، ترجمة O3 المرصودة مدعيا أنها تشغيل رمز على جهاز MacBook Pro 2021 “خارج ChatGPT” ، ثم نسخ الأرقام في إجابته. على الرغم من أن O3 لديها إمكانية الوصول إلى بعض الأدوات ، إلا أنها لا تستطيع القيام بذلك.
وقال نيل تشودر ، وهو باحث في ترجمة وموظف Openai ، في رسالة بريد إلكتروني إلى TechCrunch: “فرضيتنا هي أن نوع التعلم المعزز المستخدم لنماذج السلسلة O قد يؤدي إلى تضخيم المشكلات التي عادة ما يتم تخفيفها (ولكن لم يتم محوها بالكامل) عن طريق خطوط أنابيب ما بعد التدريب القياسية”.
وأضافت سارة شويتمان ، المؤسس المشارك للترجمة ، أن معدل الهلوسة في O3 قد يجعله أقل فائدة مما سيكون عليه.
أخبر كيان كاتانفورووش ، أستاذ مساعد في جامعة ستانفورد والرئيس التنفيذي لشركة Stariving Startup Workera ، TechCrunch أن فريقه يختبر بالفعل O3 في سير عمل الترميز الخاص بهم ، وأنهم وجدوا خطوة فوق المسابقة. ومع ذلك ، تقول Katanforoosh أن O3 يميل إلى ارتباطات موقع الويب المكسورة. سيوفر النموذج رابطًا ، عند النقر ، لا يعمل.
قد تساعد الهلوسة النماذج على التوصل إلى أفكار مثيرة للاهتمام وتكون مبدعًا في “تفكيرها” ، لكنها أيضًا تجعل بعض النماذج عملية بيع صعبة للشركات في الأسواق التي تكون فيها الدقة ذات أهمية قصوى. على سبيل المثال ، من المحتمل ألا تكون شركة المحاماة مسروراً بنموذج يدرج الكثير من الأخطاء الواقعية في عقود العميل.
أحد النهج الواعد لتعزيز دقة النماذج هو منحهم إمكانيات البحث على الويب. يحقق GPT-4O من Openai مع الويب دقة 90 ٪ على SimpleQA ، وهي واحدة أخرى من معايير دقة Openai. من المحتمل ، يمكن أن يحسن البحث معدلات الهلوسة في نماذج التفكير ، على الأقل في الحالات التي يكون فيها المستخدمون على استعداد لفضح مطالبات لمزود البحث عن طرف ثالث.
إذا استمر زيادة نماذج التفكير في تفاقم الهلوسة ، فسيجعل ذلك البحث عن حل أكثر إلحاحًا.
وقال نيكو فيليكس المتحدث باسم Openai في رسالة بالبريد الإلكتروني إلى TechCrunch: “إن معالجة الهلوسة في جميع نماذجنا هي مجال بحث مستمر ، ونحن نعمل باستمرار على تحسين دقتها وموثوقيتها”.
في العام الماضي ، بدأت صناعة الذكاء الاصطناعى الأوسع في التركيز على نماذج التفكير بعد التقنيات لتحسين نماذج الذكاء الاصطناعى التقليدية التي بدأت في إظهار عوائد متضائلة. يحسن التفكير أداء النموذج في مجموعة متنوعة من المهام دون الحاجة إلى كميات هائلة من الحوسبة والبيانات أثناء التدريب. ومع ذلك ، يبدو أن المنطق قد يؤدي أيضًا إلى مزيد من الهلوسة – تقديم تحدي.
Source link
اكتشاف المزيد من مؤسسة اشراق العالم لتقنية المعلومات-خدمات مواقع ومتاجر الإنترنت
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.