تم اتهام Openai من قبل العديد من الأطراف بتدريب الذكاء الاصطناعى على الإذن المحتوى بحقوق الطبع والنشر. الآن ، تقوم ورقة جديدة من قبل منظمة مراقبة منظمة العفو الدولية بالاتهام الجاد بأن الشركة اعتمدت بشكل متزايد على الكتب غير العامة التي لم ترخصها لتدريب نماذج الذكاء الاصطناعى الأكثر تطوراً.
نماذج الذكاء الاصطناعي هي في الأساس محركات التنبؤ المعقدة. تدرب على الكثير من البيانات – الكتب والأفلام والبرامج التلفزيونية وما إلى ذلك – يتعلمون الأنماط والطرق الجديدة للاستقراء من مطالبة بسيطة. عندما يكتب نموذج “كتابة” مقال عن مأساة يونانية أو “رسم” صور غيبلي-غيب ، فإنه ببساطة يسحب من معرفته الواسعة إلى التقريبية. لا يصل إلى أي شيء جديد.
في حين أن عددًا من مختبرات الذكاء الاصطناعى بما في ذلك Openai قد بدأ في احتضان البيانات التي تم إنشاؤها بواسطة AI لتدريب الذكاء الاصطناعى لأنها تستنفد مصادر العالم الحقيقي (بشكل أساسي على شبكة الإنترنت العامة) ، فقد تجنب عدد قليل من البيانات الواقعية تمامًا. هذا على الأرجح لأن التدريب على البيانات الاصطناعية البحتة يأتي مع مخاطر ، مثل تفاقم أداء النموذج.
إن الورقة الجديدة ، من مشروع الإفصاح عن الذكاء الاصطناعى ، وهي مؤسسة غير ربحية شاركت في عام 2024 من قبل قطب الإعلام تيم أوريلي والاقتصادي إيلان شتراوس ، تستنتج أن أوبياي من المحتمل أن تدرب نموذج GPT-4O على كتب Paywalled من O’Reilly Media. (O’Reilly هو الرئيس التنفيذي لشركة O’Reilly Media.)
في ChatGPT ، GPT-4O هو النموذج الافتراضي. تقول الورقة إن O’Reilly ليس لديها اتفاقية ترخيص مع Openai.
“GPT-4O ، نموذج Openai الأكثر حداثة وقادرًا ، يوضح اعترافًا قويًا بمحتوى كتاب O’Reilly Baywalled […] كتب المؤلفون المشاركين للورقة ، مقارنةً بالنموذج السابق لـ Openai GPT-3.5 Turbo ، “في المقابل ، يعرض GPT-3.5 توربو اعترافًا نسبيًا أكبر لعينات كتاب O’Reilly التي يمكن الوصول إليها للجمهور.”
استخدمت الورقة طريقة تسمى DE-COP ، تم تقديمها لأول مرة في ورقة أكاديمية في عام 2024 ، مصممة للكشف عن محتوى حقوق الطبع والنشر في بيانات تدريب نماذج اللغة. المعروف أيضًا باسم “هجوم الاستدلال العضوي” ، تختبر الطريقة ما إذا كان النموذج يمكنه أن يميز النصوص التي يتم تأليفها للإنسان بشكل موثوق من الإصدارات التي تم إنشاؤها من الذكاء الاصطناعية من نفس النص. إذا كان بإمكانه ذلك ، فإنه يشير إلى أن النموذج قد يكون لديه معرفة مسبقة بالنص من بيانات التدريب الخاصة به.
يقول المؤلفون المشاركون في الورقة-O’Reilly و Strauss و AI Sruly Rosenblat-إنهم قاموا بالتحقيق في GPT-4O و GPT-3.5 Turbo و Openai Models of Operilly Media Books المنشورة قبل وبعد تواريخ قطع التدريب. لقد استخدموا 13،962 مقتطفات من الفقرة من 34 كتاب O’Reilly لتقدير احتمال إدراج مقتطف معين في مجموعة بيانات تدريب النموذج.
وفقًا لنتائج الورقة ، فإن GPT-4O “معترف به” أكثر بكثير من محتوى كتاب O’Reilly Book من النماذج الأقدم من Openai ، بما في ذلك GPT-3.5 Turbo. وقال المؤلفون إنه حتى بعد حساب العوامل المربكة المحتملة ، مثل التحسينات في قدرة النماذج الأحدث على معرفة ما إذا كان النص قد تم تأليفه من الإنسان.
“GPT-4O [likely] وكتبت المؤلفين المشاركين ، ويعترفون ، وكذلك على علم مسبق ، بالعديد من كتب أورايلي غير العامة التي تم نشرها قبل تاريخ قطع التدريب “.
إنها ليست مسدسًا للتدخين ، فالأوفين المشاركين حريصون على الإشارة إليه. إنهم يقرون بأن طريقةهم التجريبية ليست مضمونة ، وأن Openai ربما جمعت مقتطفات الكتاب المقيدة من المستخدمين الذين يقومون بنسخه ولصقه في ChatGPT.
عدوًا من المياه ، لم يقم المؤلفون المشاركون بتقييم أحدث مجموعة من النماذج من Openai ، والتي تتضمن نماذج GPT-4.5 و “التفكير” مثل O3-Mini و O1. من المحتمل أن هذه النماذج لم يتم تدريبها على بيانات كتاب O’Reilly المحاكمة ، أو تم تدريبها على مبلغ أقل من GPT-4O.
ومع ذلك ، ليس سراً أن Openai ، الذي دعا إلى قيود أكثر توضيحًا حول تطوير النماذج باستخدام بيانات محمية بحقوق الطبع والنشر ، يبحث عن بيانات تدريب عالية الجودة لبعض الوقت. لقد ذهبت الشركة إلى حد توظيف الصحفيين للمساعدة في ضبط مخرجات النماذج. هذا اتجاه عبر الصناعة الأوسع: شركات الذكاء الاصطناعى تجنيد خبراء في مجالات مثل العلوم والفيزياء لإطعام هؤلاء الخبراء معرفتهم بفعالية في أنظمة الذكاء الاصطناعي.
تجدر الإشارة إلى أن Openai يدفع لبعض بيانات التدريب على الأقل. لدى الشركة صفقات ترخيص مع ناشري الأخبار والشبكات الاجتماعية ومكتبات وسائل الإعلام وغيرها. يوفر Openai أيضًا آليات إلغاء الاشتراك-وإن كانت غير كاملة-التي تسمح لمالكي حقوق الطبع والنشر بإعلام المحتوى الذي يفضلونه على الشركة عدم استخدامها لأغراض التدريب.
ومع ذلك ، نظرًا لأن Openai معارك العديد من الدعاوى على ممارسات بيانات التدريب الخاصة بها وعلاج قانون حقوق الطبع والنشر في المحاكم الأمريكية ، فإن ورقة O’Reilly ليست أكثر المظهر الإغراء.
لم يرد Openai على طلب للتعليق.
Source link
اكتشاف المزيد من مؤسسة اشراق العالم لتقنية المعلومات-خدمات مواقع ومتاجر الإنترنت
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.