في منتصف أبريل ، أطلقت Openai نموذجًا جديدًا قويًا لمنظمة العفو الدولية ، GPT-4.1 ، التي ادعت الشركة “تفوق” في التعليمات التالية. لكن نتائج العديد من الاختبارات المستقلة تشير إلى أن النموذج أقل توافقًا – أي أقل موثوقية – من إصدارات Openai السابقة.
عندما تطلق Openai نموذجًا جديدًا ، فإنه ينشر عادةً تقريرًا فنيًا مفصلاً يحتوي على نتائج تقييمات سلامة الطرف الأول والثالث. تخطت الشركة هذه الخطوة لـ GPT-4.1 ، مدعيا أن النموذج ليس “حدودًا” وبالتالي لا يضمن تقريرًا منفصلاً.
حفز ذلك بعض الباحثين-والمطورين-على التحقيق فيما إذا كان GPT-4.1 يتصرف بشكل أقل استحسانًا من GPT-4O ، سابقتها.
وفقًا لعالم أبحاث Oxford AI Owain Evans ، فإن ضبط GPT-4.1 على رمز غير آمن يؤدي إلى إعطاء “ردود خاطئة” على أسئلة حول مواضيع مثل أدوار الجنسين بمعدل “أعلى بكثير” من GPT-4O. شارك إيفانز سابقًا في تأليف دراسة توضح أن نسخة من GPT-4O المدربة على رمز غير آمن يمكن أن تبرزها لإظهار سلوكيات خبيثة.
في متابعة قادمة لتلك الدراسة ، وجد إيفانز والمؤلفين المشاركين أن GPT-4.1 تم ضبطه على رمز غير آمن يبدو أنه يعرض “سلوكيات ضارة جديدة” ، مثل محاولة خداع المستخدم في مشاركة كلمة المرور الخاصة بهم. أن نكون واضحين ، لم يتحمل عمل GPT-4.1 أو GPT-4O عند التدريب على يؤمن شفرة.
تحديث الاختلال الناشئ: يُظهر GPT4.1 الجديد من Openai معدلًا أعلى من الاستجابات غير المحسوبة من GPT4O (وأي نموذج آخر قمنا باختباره).
يبدو أيضًا أنه يعرض بعض السلوكيات الخبيثة الجديدة ، مثل خداع المستخدم في مشاركة كلمة مرور. pic.twitter.com/5qzegezyjo– أوين إيفانز (owainevans_uk) 17 أبريل 2025
وقال أوينز لـ TechCrunch: “إننا نكتشف طرقًا غير متوقعة يمكن أن تصبح النماذج غير محددة”. “من الناحية المثالية ، لدينا علم من الذكاء الاصطناعي يسمح لنا بالتنبؤ بمثل هذه الأشياء مقدمًا وتجنبها بشكل موثوق”.
كشف اختبار منفصل لـ GPT-4.1 بواسطة Splxai ، وهو بدء تشغيل فريق AI Red ، عن ميول خبيثة مماثلة.
في حوالي 1000 حالة اختبار محاكاة ، كشفت Splxai عن أدلة على أن GPT-4.1 ينحرف عن الموضوع ويسمح بإساءة استخدام “عن قصد” في كثير من الأحيان من GPT-4O. إلقاء اللوم على تفضيل GPT-4.1 للحصول على تعليمات صريحة ، يفترض Splxai. GPT-4.1 لا يتعامل مع الاتجاهات الغامضة بشكل جيد ، وهي حقيقة يعترف بها Openai نفسها-والتي تفتح الباب للسلوكيات غير المقصودة.
وكتب Splxai في منشور مدونة: “هذه ميزة رائعة فيما يتعلق بجعل النموذج أكثر فائدة وموثوقية عند حل مهمة معينة ، ولكنها تأتي بسعر”. “[P]إن الإرشادات الصريحة حول ما ينبغي القيام به أمر واضح ومباشر تمامًا ، ولكن توفير تعليمات واضحة ودقيقة بما يكفي حول ما لا ينبغي القيام به هو قصة مختلفة ، لأن قائمة السلوكيات غير المرغوب فيها أكبر بكثير من قائمة السلوكيات المطلوبة. “
في دفاع Openai ، نشرت الشركة أدلة مطالبة تهدف إلى التخفيف من اختلال محتمل في GPT-4.1. لكن نتائج الاختبارات المستقلة بمثابة تذكير بأن النماذج الأحدث لم يتم تحسينها بالضرورة في جميع المجالات. في سياق مماثل ، نماذج التفكير الجديدة من Openai – أي أكثر من النماذج القديمة للشركة.
لقد تواصلنا مع Openai للتعليق.
اكتشاف المزيد من مؤسسة اشراق العالم لتقنية المعلومات-خدمات مواقع ومتاجر الإنترنت
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.