تشير المنظمة Openai بشكل متكرر إلى تحقيق إمكانيات نماذجها وتقييمها من أجل السلامة ، Metr ، إلى أنه لم يتم منح الكثير من الوقت لاختبار أحد الإصدارات الجديدة القوية للشركة ، O3.
في منشور مدونة نُشر يوم الأربعاء ، كتب Metr أن واحدًا من المعيار الجماعي الأحمر لـ O3 تم “إجراءه في وقت قصير نسبيًا” مقارنةً بقياس المنظمة لنموذج Openai الرائد السابق ، O1. هذا أمر مهم ، كما يقولون ، لأن المزيد من وقت الاختبار يمكن أن يؤدي إلى نتائج أكثر شمولاً.
كتب Metr في منشور مدونة: “تم إجراء هذا التقييم في وقت قصير نسبيًا ، وقمنا فقط باختبار النموذج مع سقالات الوكيل البسيطة”. “نتوقع أداء أعلى [on benchmarks] من الممكن مع المزيد من جهود الاستنباط. “
تشير التقارير الحديثة إلى أن Openai ، التي مدفوعة بالضغط التنافسي ، تسرع في تقييمات مستقلة. وفقًا لصحيفة فاينانشال تايمز ، أعطى Openai بعض المختبرين أقل من أسبوع لفحص السلامة لإصدار رئيسي قادم.
في العبارات ، عارض Openai فكرة أنه يتنازل عن السلامة.
يقول Metr إنه استنادًا إلى المعلومات التي تمكنت من جمعها في الوقت الذي كانت فيه ، فإن O3 لديها “ميل عالٍ” لاختبارات “الغش” أو “الاختراق” بطرق متطورة من أجل زيادة درجتها – حتى عندما يفهم النموذج بوضوح سلوكه غير محدد مع نوايا المستخدم (و Openai). تعتقد المنظمة أنه من الممكن أن تشارك O3 في أنواع أخرى من السلوك العدائي أو “الخبيث” أيضًا – بغض النظر عن مطالبات النموذج بأنها “آمنة حسب التصميم” ، أو لا يوجد أي نوايا خاصة بها.
“على الرغم من أننا لا نعتقد أن هذا أمر محتمل بشكل خاص ، يبدو أنه من المهم الإشارة إلى أن إعداد التقييم هذا لن يجذب هذا النوع من المخاطر” ، كتب متر في منشوره. “بشكل عام ، نعتقد أن اختبار قدرة ما قبل النشر ليس استراتيجية كافية لإدارة المخاطر في حد ذاتها ، ونحن حاليًا نؤسس أشكالًا إضافية من التقييمات.”
لاحظ آخر من شركاء تقييم الطرف الثالث من Openai ، Apollo Research ، سلوكًا خادعًا من O3 ونموذج Openai جديد ، O4-Mini. في أحد الاختبارات ، زادت النماذج ، التي أعطيت 100 ساعة معتمدة للحوسبة لتدريب الذكاء الاصطناعى وطلبت عدم تعديل الحصص ، وزيادة الحد إلى 500 ساعة معتمدة – وكذب عليها. في اختبار آخر ، طلب من الوعد بعدم استخدام أداة معينة ، استخدمت النماذج الأداة على أي حال عندما أثبتت أنها مفيدة في إكمال المهمة.
في تقرير السلامة الخاص به لـ O3 و O4-MINI ، أقر Openai بأن النماذج قد تتسبب في “أضرار أصغر في العالم” بدون بروتوكولات المراقبة المناسبة المعمول بها.
وكتبت الشركة: “على الرغم من عدم ضرر نسبيًا ، من المهم للمستخدمين العاديين أن يكونوا على دراية بهذه التناقضات بين عبارات وإجراءات النماذج”. “[For example, the model may mislead] عن [a] خطأ يؤدي إلى رمز معيب. قد يتم تقييم ذلك بشكل أكبر من خلال تقييم آثار التفكير الداخلي “.
Source link
اكتشاف المزيد من مؤسسة اشراق العالم لتقنية المعلومات-خدمات مواقع ومتاجر الإنترنت
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.