يبدو أن دراسة جديدة تضفي مصداقية على الادعاءات بأن Openai قام بتدريب بعض نماذج AI على الأقل على المحتوى المحمي بحقوق الطبع والنشر.
Openai متورط في الدعاوى التي قدمها المؤلفون والمبرمجون وغيرهم من أصحاب الحقوق الذين يتهمون الشركة باستخدام أعمالهم-الكتب ، Codebases ، وما إلى ذلك-لتطوير نماذجها دون إذن. طالبت Openai دفاعًا عادلًا للاستخدام العادل ، لكن المدعين في هذه الحالات يجادلون بأنه لا يوجد حافلة في قانون حقوق الطبع والنشر في الولايات المتحدة لتدريب البيانات.
تقترح الدراسة ، التي شاركت في تأليفها باحثين في جامعة واشنطن ، وجامعة كوبنهاغن ، وستانفورد ، طريقة جديدة لتحديد بيانات التدريب “حفظها” من قبل نماذج خلف واجهة برمجة التطبيقات ، مثل Openai’s.
النماذج هي محركات التنبؤ. تدرب على الكثير من البيانات ، يتعلمون الأنماط – هكذا يمكنهم إنشاء مقالات وصور وأكثر من ذلك. معظم المخرجات ليست نسخًا حرفية من بيانات التدريب ، ولكن بسبب الطريقة التي “تعلمها” ، بعضها حتمي. تم العثور على نماذج الصور لتجديد لقطات شاشة من الأفلام التي تم تدريبها عليها ، في حين لوحظت نماذج اللغة مقالات إخبارية انتحارية بشكل فعال.
تعتمد طريقة الدراسة على الكلمات التي يسميها المؤلفون المشاركون “العاليين”-أي الكلمات التي تبرز على أنها غير شائعة في سياق مجموعة أكبر من العمل. على سبيل المثال ، ستعتبر كلمة “رادار” في الجملة “جاك وأنا لا تزال مع الرادار الطنان” عالياً لأنها أقل احصاءً من الكلمات مثل “المحرك” أو “الراديو” لتظهر قبل “الطنين”.
قام المؤلفون المشاركون بالتحقيق في العديد من طرز Openai ، بما في ذلك GPT-4 و GPT-3.5 ، لعلامات الحفظ من خلال إزالة الكلمات العالية من قصاصات من الكتب الخيالية و New York Times Pieces ووجود النماذج التي تحاول “التخمين” التي تم إخفاء الكلمات. إذا تمكنت النماذج من التخمين بشكل صحيح ، فمن المحتمل أن يحفظوا المقتطف أثناء التدريب ، اختتم المؤلفون المشاركون.
وفقًا لنتائج الاختبارات ، أظهر GPT-4 علامات على حفظ أجزاء من كتب الخيال الشائعة ، بما في ذلك الكتب في مجموعة بيانات تحتوي على عينات من الكتب الإلكترونية المحمية بحقوق الطبع والنشر تسمى Bookmia. أشارت النتائج أيضًا إلى أن النموذج يحفظ أجزاء من مقالات نيويورك تايمز ، وإن كان بمعدل أقل نسبيًا.
أخبر أبهلاشا رافيتشاندر ، طالب الدكتوراه في جامعة واشنطن ومؤلفًا مشاركًا للدراسة ، TechCrunch أن النتائج التي ألقى الضوء على نماذج “البيانات المثيرة للجدل” ربما تم تدريبها.
وقال رافيتشاندر: “من أجل أن يكون لدينا نماذج لغوية كبيرة جديرة بالثقة ، نحتاج إلى أن يكون لدينا نماذج يمكننا التحقيق والمراجعة وفحصها علمياً”. “يهدف عملنا إلى توفير أداة للتحقيق في نماذج اللغة الكبيرة ، ولكن هناك حاجة حقيقية لشفافية بيانات أكبر في النظام البيئي بأكمله.”
لقد دعا Openai منذ فترة طويلة إلى قيود الأزياء على تطوير النماذج باستخدام البيانات المحمية بحقوق الطبع والنشر. على الرغم من أن الشركة لديها بعض صفقات ترخيص المحتوى في مكانها وتقدم آليات إلغاء الاشتراك التي تسمح لمالكي حقوق الطبع والنشر بالعلامة على محتوىهم الذين يفضلون عدم استخدام الشركة لأغراض التدريب ، فقد ضغطت على العديد من الحكومات لتدوين قواعد “الاستخدام العادل” حول أساليب تدريب الذكاء الاصطناعي.
Source link
اكتشاف المزيد من مؤسسة اشراق العالم لتقنية المعلومات-خدمات مواقع ومتاجر الإنترنت
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.