يتم استخدام نماذج الذكاء الاصطناعى من Openai ، والأنثروبور ، وغيرها من مختبرات AI بشكل متزايد للمساعدة في مهام البرمجة. قال الرئيس التنفيذي لشركة Google Sundar Pichai في شهر أكتوبر إن 25 ٪ من الكود الجديد في الشركة قد تم إنشاؤه من قبل الذكاء الاصطناعى ، وقد أعرب الرئيس التنفيذي لشركة Meta Mark Zuckerberg عن طموحاتها على نشر نماذج ترميز الذكاء الاصطناعى على نطاق واسع داخل عملاق الوسائط الاجتماعية.
ومع ذلك ، حتى بعض من أفضل النماذج اليوم تكافح من أجل حل أخطاء البرامج التي لن ترتفع إلى Devs من ذوي الخبرة.
كشفت دراسة جديدة من Microsoft Research ، قسم البحث والتطوير من Microsoft ، أن النماذج ، بما في ذلك Claude 3.7 Sonnet و Openai’s O3-MINI ، تفشل في تصحيح العديد من القضايا في معيار تطوير البرمجيات يسمى SWE-BENCE LITE. النتائج هي تذكير واقعية ، على الرغم من التصريحات الجريئة من شركات مثل Openai ، لا يزال منظمة AI لا تتطابق مع الخبراء البشريين في مجالات مثل الترميز.
اختبر المؤلفون المشاركون في الدراسة تسعة نماذج مختلفة كعمود فقير لـ “وكيل واحد قائم على المطالبة” والذي كان لديه إمكانية الوصول إلى عدد من أدوات التصحيح ، بما في ذلك مصحح الأخطاء في بيثون. لقد كلفوا هذا الوكيل بحل مجموعة من 300 مهمة تصحيح الأخطاء من البرمجيات من Swe-bench Lite.
وفقًا للمؤلفين المشاركين ، حتى عندما يتم تجهيزه بنماذج أقوى وأكثر حداثة ، نادراً ما يكمل وكيلهم أكثر من نصف مهام التصحيح بنجاح. كان كلود 3.7 Sonnet أعلى معدل نجاح متوسط (48.4 ٪) ، يليه Openai’s O1 (30.2 ٪) ، و O3-MINI (22.1 ٪).
لماذا الأداء الساحق؟ كافحت بعض النماذج لاستخدام أدوات تصحيح الأخطاء المتاحة لهم وفهم كيف يمكن أن تساعد الأدوات المختلفة في مشكلات مختلفة. المشكلة الأكبر ، على الرغم من ذلك ، كانت ندرة البيانات ، وفقًا للمؤلفين المشاركين. إنهم يتوقعون أنه لا يوجد ما يكفي من البيانات التي تمثل “عمليات اتخاذ القرارات المتسلسلة”-أي آثار تصحيح الأخطاء البشرية-في بيانات تدريب النماذج الحالية.
“نحن نعتقد اعتقادا راسخا أن التدريب أو النفق [models] كتب مؤلفون مشاركون في دراستهم: “يمكن أن يجعلهم تصحيحات تفاعلية أفضل.
النتائج ليست مروعة بالضبط. أظهرت العديد من الدراسات أن الذكاء الاصطناعى المولد بالدولة يميل إلى تقديم نقاط الضعف والأخطاء الأمنية ، بسبب نقاط الضعف في مجالات مثل القدرة على فهم منطق البرمجة. وجد أحد التقييمات الحديثة لـ Devin ، وهي أداة ترميز منظمة العفو الدولية ، أنه لا يمكنها سوى إكمال ثلاثة من أصل 20 اختبار برمجة.
لكن عمل Microsoft هو واحد من المظهر الأكثر تفصيلاً حتى الآن في منطقة مشكلة مستمرة للنماذج. من المحتمل ألا يضعف حماس المستثمر لأدوات الترميز المساعدة التي تعمل بذوارات العشرين ، ولكن مع أي حظ ، ستجعل المطورين-وعملياتهم العليا-يفكرون مرتين في السماح لمنظمة العفو الدولية بتشغيل عرض الترميز.
لما يستحق الأمر ، فقد تعارض عدد متزايد من قادة التكنولوجيا في فكرة أن الذكاء الاصطناعى سيؤدي إلى أتمتة وظائف الترميز. قال بيل جيتس المؤسس المشارك لشركة Microsoft إنه يعتقد أن البرمجة كمهنة موجودة لتبقى. لذلك قام الرئيس التنفيذي لشركة Amjad Masad ، الرئيس التنفيذي لشركة Okta Todd McKinnon ، والرئيس التنفيذي لشركة IBM Arvind Krishna.
Source link
اكتشاف المزيد من مؤسسة اشراق العالم لتقنية المعلومات-خدمات مواقع ومتاجر الإنترنت
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.