تطلق Microsoft مشروعًا بحثيًا لتقدير تأثير أمثلة تدريب محددة على النص والصور وأنواع أخرى من الوسائط التي تنشئها نماذج الذكاء الاصطناعى.
هذا في قائمة الوظائف التي يعود تاريخها إلى ديسمبر والتي تم إعادة تدويرها مؤخرًا على LinkedIn.
وفقًا للإدراج ، الذي يبحث عن متدرب في البحث ، سيحاول المشروع إثبات أن النماذج يمكن تدريبها بطريقة بحيث يمكن تقدير تأثير البيانات المعينة – على سبيل المثال ، على مخرجاتهم “بكفاءة وموافقة على ذلك”.
“بنيات الشبكة العصبية الحالية غير شفافة من حيث توفير مصادر لأجيالها ، وهناك هناك […] أسباب وجيهة لتغيير هذا ، “يقرأ القائمة.”[One is,] الحوافز والاعتراف وربما الدفع للأشخاص الذين يساهمون ببيانات قيمة معينة لأنواع غير متوقعة من النماذج التي سنريدها في المستقبل ، على افتراض أن المستقبل سوف يفاجئنا بشكل أساسي. “
توجد نصوص منظمة العفو الدولية والرمز والصور والفيديو ومولدات الأغاني في مركز عدد من دعاوى IP ضد شركات الذكاء الاصطناعى. في كثير من الأحيان ، تقوم هذه الشركات بتدريب نماذجها على كميات هائلة من البيانات من مواقع الويب العامة ، والتي يحمي بعضها حقوق الطبع والنشر. يجادل العديد من الشركات بأن عقيدة الاستخدام العادل تحمي ممارسات توقيت البيانات والتدريب. لكن التصميمات – من الفنانين إلى المبرمجين إلى المؤلفين – لا توافق إلى حد كبير.
تواجه Microsoft نفسها تحديين قانونيين على الأقل من حاملي حقوق الطبع والنشر.
رفعت صحيفة نيويورك تايمز دعوى قضائية ضد عملاق التكنولوجيا ومتعاونها في وقت ما ، Openai ، في ديسمبر ، متهمة الشركتين بالانتهاك على حقوق الطبع والنشر في التايمز من خلال نشر نماذج مدربة على ملايين مقالاتها. قام العديد من مطوري البرامج برفع دعوى ضد Microsoft ، مدعيا أنه تم تدريب مساعد ترميز GitHub CoPilot AI للشركة بشكل غير قانوني باستخدام أعمالها المحمية.
يقال إن الجهود البحثية الجديدة لـ Microsoft ، والتي تصفها القائمة بأنها “مصدر التدريب في وقت التدريب” ، تشرب من Jaron Lanier ، الفني البارز والعالم متعدد التخصصات في Microsoft Research. في افتتاحية في أبريل 2023 في نيويوركر ، كتب لانير عن مفهوم “كرامة البيانات” ، والذي يعني أنه يعني ربط “الأشياء الرقمية” بـ “البشر الذين يريدون أن يكونوا معروفين بـ”.
وكتب لانير: “من شأن نهج تصميم البيانات تتبع أكثر المساهمين الفريدين والتأثير عندما يوفر نموذج كبير ناتجًا قيمًا”. “على سبيل المثال ، إذا سألت نموذجًا عن” فيلم متحرك لأطفالي في عالم لتصوير القطط في الحديث عن النفط في مغامرة ، فإن بعض الرسامين الرئيسيين في الزيت ، وتصويرات القط ، والممثلين الصوتيين ، والكتاب-أو مناطقهم-قد يتم حسابهم حتى يتم دفعهم “.
هناك ، ليس من أجل لا شيء ، بالفعل العديد من الشركات التي تحاول ذلك. مطور نموذج الذكاء الاصطناعى Bria ، الذي جمع مؤخراً 40 مليون دولار من رأس المال الاستثماري ، يدعي أنه يعوض “تعويض” مالكي البيانات وفقًا لـ “التأثير الكلي”. يمنح Adobe و Shutterstock أيضًا دفعات منتظمة للمساهمين في مجموعات البيانات ، على الرغم من أن مبالغ الدفعات الدقيقة تميل إلى أن تكون غير شفافة.
قام عدد قليل من المختبرات الكبيرة بإنشاء برامج دفع فردية للمساهمين خارج اتفاقيات الترخيص مع الناشرين والمنصات ووسطاء البيانات. لقد قدموا بدلاً من ذلك وسائل لأصحاب حقوق الطبع والنشر “إلغاء الاشتراك” في التدريب. لكن بعض عمليات إلغاء الاشتراك هذه مرهقة ، وتنطبق فقط على النماذج المستقبلية-ليست تدريبات مسبقًا.
بالطبع ، قد يصل مشروع Microsoft إلى ما يزيد قليلاً عن دليل على المفهوم. هناك سابقة لذلك. مرة أخرى في مايو ، قال Openai إنها تقوم بتطوير تقنية مماثلة من شأنها أن تتيح للمبدعين تحديد كيفية إدراج أعمالهم في بيانات التدريب – أو استبعادها من – بيانات التدريب. ولكن بعد مرور عام تقريبًا ، لم ترى الأداة بعد ضوء النهار ، وغالبًا ما لم يتم النظر إليها كأولوية داخلية.
قد تحاول Microsoft أيضًا “غسل الأخلاق” هنا – أو توجه قرارات تنظيمية و/أو محاكمة تعرضية لأعمالها في الذكاء الاصطناعي.
لكن أن الشركة تحقق في طرق تتبع بيانات التدريب الملحوظة في ضوء المواقف الأخرى التي تم التعبير عنها مؤخرًا من AI Labs. نشرت العديد من المختبرات الكبرى ، بما في ذلك Google و Openai ، وثائق سياسية توصي بأن إدارة ترامب تضعف حماية حقوق الطبع والنشر من حيث صلتها بتطوير الذكاء الاصطناعي. لقد دعا Openai صراحة حكومة الولايات المتحدة إلى تدوين الاستخدام العادل للتدريب النموذجي ، وهو ما يجادل بأنه سيحرر المطورين من القيود المرهقة.
لم ترد Microsoft على الفور على طلب للتعليق.
Source link
اكتشاف المزيد من مؤسسة اشراق العالم لتقنية المعلومات-خدمات مواقع ومتاجر الإنترنت
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.