يوم السبت، تم تنبيه الرئيس التنفيذي لشركة Triplegangers، أولكسندر تومشوك، إلى تعطل موقع التجارة الإلكترونية لشركته. يبدو أنه نوع من هجوم حجب الخدمة الموزع.
وسرعان ما اكتشف أن الجاني كان روبوتًا من OpenAI كان يحاول بلا هوادة تدمير موقعه الضخم بالكامل.
وقال تومشوك لـ TechCrunch: “لدينا أكثر من 65000 منتج، ولكل منتج صفحة”. “تحتوي كل صفحة على ثلاث صور على الأقل.”
كان OpenAI يرسل “عشرات الآلاف” من طلبات الخادم لمحاولة تنزيلها كلها، مئات الآلاف من الصور، بالإضافة إلى أوصافها التفصيلية.
وقال عن عناوين IP التي استخدمها الروبوت لمحاولة استهلاك موقعه: “استخدم OpenAI 600 عنوان IP لاستخراج البيانات، وما زلنا نحلل السجلات من الأسبوع الماضي، وربما يكون الأمر أكثر من ذلك بكثير”.
وقال: “كانت برامج الزحف الخاصة بهم تسحق موقعنا، لقد كان في الأساس هجوم DDoS”.
موقع Triplegangers هو عملها. أمضت الشركة المكونة من سبعة موظفين أكثر من عقد من الزمن في تجميع ما تسميه أكبر قاعدة بيانات لـ “التضاعف الرقمي البشري” على الويب، مما يعني ملفات صور ثلاثية الأبعاد تم مسحها ضوئيًا من نماذج بشرية فعلية.
تبيع ملفات الكائنات ثلاثية الأبعاد، بالإضافة إلى الصور – كل شيء بدءًا من الأيدي إلى الشعر والجلد والأجسام الكاملة – إلى الفنانين ثلاثي الأبعاد وصانعي ألعاب الفيديو وأي شخص يحتاج إلى إعادة إنشاء الخصائص البشرية الأصيلة رقميًا.
فريق Tomchuk، ومقره في أوكرانيا ولكنه مرخص أيضًا في الولايات المتحدة خارج تامبا بولاية فلوريدا، لديه صفحة شروط الخدمة على موقعه تمنع الروبوتات من التقاط صوره دون إذن. ولكن هذا وحده لم يفعل شيئا. يجب أن تستخدم مواقع الويب ملف robot.txt تم تكوينه بشكل صحيح مع علامات تخبر روبوت OpenAI، GTBot، على وجه التحديد، بترك الموقع بمفرده. (يحتوي OpenAI أيضًا على اثنين من الروبوتات الأخرى، ChatGPT-User وOAI-SearchBot، التي لها علاماتها الخاصة، وفقًا لصفحة المعلومات الخاصة بها على برامج الزحف الخاصة بها.)
تم إنشاء ملف Robot.txt، المعروف أيضًا باسم بروتوكول استبعاد الروبوتات، لإخبار مواقع محركات البحث بما لا يجب الزحف إليه أثناء فهرسة الويب. تقول OpenAI على صفحتها المعلوماتية إنها تحترم مثل هذه الملفات عند تهيئتها بمجموعتها الخاصة من علامات عدم الزحف، على الرغم من أنها تحذر أيضًا من أنها يمكن أن تستغرق برامج الروبوت الخاصة بها ما يصل إلى 24 ساعة للتعرف على ملف robot.txt المحدث.
وكما شهد تومشوك، إذا كان الموقع لا يستخدم ملف robot.txt بشكل صحيح، فإن OpenAI وآخرون يعتبرون ذلك يعني أنه يمكنهم الوصول إلى محتوى قلوبهم. إنه ليس نظام اختيار.
ولزيادة الطين بلة، لم يقتصر الأمر على توقف Triplegangers عن الاتصال بالإنترنت بواسطة روبوت OpenAI أثناء ساعات العمل في الولايات المتحدة، ولكن يتوقع Tomchuk فاتورة AWS مرفوعة بفضل كل وحدة المعالجة المركزية ونشاط التنزيل من الروبوت.
Robot.txt أيضًا ليس آمنًا من الفشل. وتلتزم شركات الذكاء الاصطناعي بها طوعًا. شركة ناشئة أخرى تعمل في مجال الذكاء الاصطناعي، وهي Perplexity، تم استدعاؤها في الصيف الماضي من خلال تحقيق Wired عندما أشارت بعض الأدلة ضمنًا إلى أن Perplexity لم تحترمها.
لا أستطيع أن أعرف على وجه اليقين ما تم أخذه
بحلول يوم الأربعاء، بعد أيام من عودة روبوت OpenAI، كان لدى Triplegangers ملف robot.txt تم تكوينه بشكل صحيح، بالإضافة إلى حساب Cloudflare الذي تم إعداده لحظر GPTBot والعديد من الروبوتات الأخرى التي اكتشفها، مثل Barkrowler (زاحف SEO) وBytespider ( زاحف TokTok). يأمل Tomchuk أيضًا أن يقوم بحظر برامج الزحف من شركات نماذج الذكاء الاصطناعي الأخرى. وقال إن الموقع لم يتعطل صباح الخميس.
لكن لا يزال لدى Tomchuk أي طريقة معقولة لمعرفة بالضبط ما نجح OpenAI في الحصول عليه أو إزالة تلك المواد. لم يجد طريقة للاتصال بـ OpenAI والاستفسار. لم يستجب OpenAI لطلب TechCrunch للتعليق. وقد فشلت شركة OpenAI حتى الآن في تقديم أداة إلغاء الاشتراك التي وعدت بها منذ فترة طويلة، كما أفاد موقع TechCrunch مؤخرًا.
هذه مشكلة صعبة بشكل خاص بالنسبة لـ Triplegangers. وقال: “نحن نعمل في مجال تعتبر فيه الحقوق قضية خطيرة، لأننا نقوم بفحص الأشخاص الفعليين”. وفي ظل قوانين مثل اللائحة العامة لحماية البيانات في أوروبا، “لا يمكنهم التقاط صورة لأي شخص على الويب واستخدامها”.
كان موقع Triplegangers أيضًا بمثابة اكتشاف لذيذ بشكل خاص لبرامج زحف الذكاء الاصطناعي. تم إنشاء شركات ناشئة تبلغ قيمتها مليارات الدولارات، مثل Scale AI، حيث يقوم البشر بوضع علامات على الصور لتدريب الذكاء الاصطناعي. يحتوي موقع Triplegangers على صور موسومة بالتفصيل: العرق، والعمر، والوشم مقابل الندبات، وجميع أنواع الجسم، وما إلى ذلك.
المفارقة هي أن جشع روبوت OpenAI هو ما نبه Triplegangers إلى مدى تعرضه للخطر. وقال إنه لو تم كشطه بلطف أكبر، لما عرف تومشوك أبدًا.
“إنه أمر مخيف لأنه يبدو أن هناك ثغرة تستخدمها هذه الشركات للزحف إلى البيانات بالقول “يمكنك إلغاء الاشتراك إذا قمت بتحديث ملف robot.txt الخاص بك باستخدام علاماتنا”، كما يقول تومشوك، ولكن هذا يضع العبء على صاحب العمل للقيام بذلك. فهم كيفية منعهم.
إنه يريد من الشركات الصغيرة الأخرى عبر الإنترنت أن تعرف أن الطريقة الوحيدة لاكتشاف ما إذا كان روبوت الذكاء الاصطناعي يأخذ ممتلكات موقع ويب محمية بحقوق الطبع والنشر هي البحث بنشاط. ومن المؤكد أنه ليس وحده الذي يتعرض للترهيب من قبلهم. أخبر أصحاب مواقع الويب الأخرى موقع Business Insider مؤخرًا كيف تسببت روبوتات OpenAI في تعطل مواقعهم وزيادة فواتير AWS الخاصة بهم.
وازدادت المشكلة حجمًا في عام 2024. ووجد بحث جديد أجرته شركة الإعلانات الرقمية DoubleVerify أن برامج الزحف والكاشطات التي تعمل بالذكاء الاصطناعي تسببت في زيادة بنسبة 86% في “حركة المرور العامة غير الصالحة” في عام 2024 – أي حركة المرور التي لا تأتي من مستخدم حقيقي.
ومع ذلك، يحذر تومشوك من أن “معظم المواقع لا تزال غير متأكدة من أن هذه الروبوتات قد تم سرقتها”. “علينا الآن مراقبة نشاط السجل يوميًا لاكتشاف هذه الروبوتات.”
عندما تفكر في الأمر، فإن النموذج بأكمله يعمل إلى حد ما مثل ابتزاز المافيا: سوف تأخذ روبوتات الذكاء الاصطناعي ما تريد ما لم يكن لديك الحماية.
يقول تومشوك: “يجب عليهم أن يطلبوا الإذن، وليس مجرد جمع البيانات”.
Source link
اكتشاف المزيد من مؤسسة اشراق العالم لتقنية المعلومات-خدمات مواقع ومتاجر الإنترنت
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.