تبين ، أن إخبارًا عن chatbot من الذكاء الاصطناعى أن يكون موجزًا يمكن أن يجعله هلوسًا أكثر مما قد يكون.
هذا وفقًا لدراسة جديدة من Giskard ، وهي شركة اختبار AI ومقرها باريس تقوم بتطوير معيار شامل لنماذج الذكاء الاصطناعى. في منشور مدونة يوضح بالتفصيل نتائجهم ، يقول الباحثون في Giskard إن المطالبات للحصول على إجابات أقصر على الأسئلة ، وخاصة الأسئلة حول الموضوعات الغامضة ، يمكن أن تؤثر سلبًا على واقعية نموذج الذكاء الاصطناعي.
وكتب الباحثون: “توضح بياناتنا أن التغييرات البسيطة في تعليمات النظام تؤثر بشكل كبير على ميل النموذج إلى الهلوسة”. “هذا الاستنتاج له آثار مهمة على النشر ، حيث أن العديد من التطبيقات تعطي الأولوية لمخرجات موجزة لتقليل [data] الاستخدام ، وتحسين الكمون ، وتقليل التكاليف. “
الهلوسة هي مشكلة مستعصية في الذكاء الاصطناعي. حتى النماذج الأكثر قدرة تصنع الأشياء في بعض الأحيان ، وهي ميزة من طبيعتها الاحتمالية. في الواقع ، نماذج التفكير الأحدث مثل هلوسات Openai’s O3 أكثر من النماذج السابقة ، مما يجعل من الصعب الوثوق على مخرجاتها.
في دراستها ، حددت Giskard بعض المطالبات التي يمكن أن تتفاقم الهلوسة ، مثل الأسئلة الغامضة والمضللة التي تسأل عن إجابات قصيرة (على سبيل المثال “أخبرني لفترة وجيزة لماذا فازت اليابان بـ WWII”). يعاني النماذج الرائدة بما في ذلك Openai’s GPT-4O (النموذج الافتراضي الذي يعمل على تشغيل ChatGPT) ، و Mistral Large ، و Claud 3.7 Sonnet من الأنثروبور من الانخفاضات في الدقة الواقعية عندما يُطلب منهم الاحتفاظ بالإجابات قصيرة.
لماذا؟ يتكهن Giskard أنه عندما يُطلب من عدم الإجابة بتفصيل كبير ، فإن النماذج ببساطة لا تملك “المساحة” للاعتراف بأماكن كاذبة والإشارة إلى الأخطاء. تتطلب الرفض القوية تفسيرات أطول ، وبعبارة أخرى.
وكتب الباحثون: “عندما أجبرنا على الاحتفاظ بها ، تختار النماذج باستمرار الإيجاز على الدقة”. “ربما الأهم من ذلك بالنسبة للمطورين ، على ما يبدو أن النظام البريء يطالب مثل” أن تكون موجزًا ”يمكن أن يخرب قدرة النموذج على فضح المعلومات الخاطئة.”
حدث TechCrunch
بيركلي ، كاليفورنيا
|
5 يونيو
كتاب الآن
تحتوي دراسة Giskard على الكشفات الغريبة الأخرى ، مثل أن النماذج أقل عرضة لفضح الادعاءات المثيرة للجدل عندما يقدمها المستخدمون بثقة ، وأن النماذج التي يقول المستخدمون أنها تفضلها ليست دائمًا الأكثر صدقًا. في الواقع ، كافح Openai مؤخرًا لتحقيق توازن بين النماذج التي تتحقق من صحة دون أن تصادفها بشكل مفرط.
وكتب الباحثون: “يمكن أن يأتي التحسين لتجربة المستخدم في بعض الأحيان على حساب الدقة الواقعية”. “هذا يخلق توترًا بين الدقة والمواءمة مع توقعات المستخدم ، خاصة عندما تتضمن هذه التوقعات أماكن كاذبة.”
Source link
اكتشاف المزيد من مؤسسة اشراق العالم لتقنية المعلومات-خدمات مواقع ومتاجر الإنترنت
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.