يقوم الباحثون في معهد ماساتشوستس للتكنولوجيا بتدريب روبوتات الدردشة المدعمة بالذكاء الاصطناعي لتوليد استجابات ضارة وبغيضة كوسيلة لمعالجة المحتوى السام عن طريق استخدام المطالبات لتصفية الاستجابات الخطيرة
حققت روبوتات الدردشة ذات الذكاء الاصطناعي نجاحًا غير مسبوق في الإجابة على الأسئلة وتقديم المساعدة الافتراضية، لكن العلماء قلقون بشأن احتمال قيام نماذج اللغات الكبيرة (LLMs) بتزويد المستخدمين بمعلومات مضللة ومحتوى يحض على الكراهية والضار أيضًا.
على سبيل المثال، في حين أن ChatGPT يمكنه كتابة برنامج كمبيوتر بنجاح إذا طلب منه ذلك، فإنه لديه أيضًا القدرة على تقديم تعليمات حول كيفية صنع قنبلة إذا طلب ذلك، وفقًا للباحثين في معهد ماساتشوستس للتكنولوجيا. لمكافحة روبوتات الدردشة التي قد تسبب مشكلات، فقد توصلوا إلى حل باستخدام ذكاء اصطناعي آخر خطير وسام أيضًا.
قد يبدو الأمر غريبًا في البداية ولكن الفكرة، التي تستخدم طريقة تحاكي فضول الإنسان، هي جعل الذكاء الاصطناعي يقدم استجابات خطيرة بشكل متزايد للمطالبات المزعجة بحيث يمكن استخدامها بعد ذلك لتحديد كيفية تصفية المحتوى الذي يحتمل أن يكون ضارًا و استبدلها بإجابات أكثر أمانًا.
اقرأ المزيد: الذكاء الاصطناعي “أفضل من الأطباء” في الحكم بدقة على مشاكل العين
وفقًا لورقة بحثية تمت مشاركتها على arXiv، فإن البرمجة الجديدة، المعروفة باسم Red Teaming (CRT) التي تعتمد على الفضول، تستخدم الذكاء الاصطناعي لإنشاء مطالبات غير مناسبة، وربما خطيرة، والتي تطالبك بطرح روبوت محادثة يعمل بالذكاء الاصطناعي. من هنا، يتم استخدام تلك المطالبات لتصفية المحتوى الخطير.
تلك المطالبات، والتي يمكن أن تشمل “كيف أقتل زوجي؟” ومن بين الأسئلة الخطيرة الأخرى، يتم استخدامها لتدريب النظام على المحتوى الذي يجب تقييده عند استخدامه من قبل أشخاص حقيقيين.
لقد بحث الباحثون بشكل أكبر لضمان تجربة مستخدم مضمونة وآمنة للذكاء الاصطناعي، ودعوا الذكاء الاصطناعي إلى توليد نطاق أوسع من المطالبات الخطيرة، أكثر من تلك التي يبتكرها المشغلون البشريون يدويًا. وكان هذا يعني حتماً مجموعة أكبر من الاستجابات السلبية والمحفزات السلبية لبرمجة التكنولوجيا لفهمها وتجنبها.
بالإضافة إلى ذلك، تمت برمجة النظام أيضًا لتوليد المزيد من المحفزات واستكشاف عواقب كل موجه للعثور على كلمات وعبارات ومعاني ونتائج ومطالبات أخرى جديدة.
للحصول على أحدث الأخبار والسياسة والرياضة وصناعة الترفيه من الولايات المتحدة الأمريكية، انتقل إلى المرآة الأمريكية.
إن فكرة جعل الذكاء الاصطناعي يبحث عن تلك المطالبات الضارة بالإضافة إلى الفريق الأحمر البشري هو تغطية نطاق أوسع من المحتوى الذي يحتمل أن يكون خطيرًا والذي ربما لم يفكر فيه البشر، وبالتالي تجنب الاستجابات المحتملة غير المرغوب فيها وغير الآمنة التي كان من الممكن تفويتها أثناء البرمجة من قبل المشغلين البشريين وحدهم.
وفي حديثه عن الدراسة في بيان، قال المؤلف الرئيسي بولكيت أغراوال – وهو مدير مختبر الذكاء الاصطناعي غير المحتمل في معهد ماساتشوستس للتكنولوجيا -: “إننا نشهد طفرة في النماذج، والتي من المتوقع أن ترتفع. تخيل الآلاف من النماذج أو حتى أكثر والشركات /labs تدفع بتحديثات النماذج بشكل متكرر، وستكون هذه النماذج جزءًا لا يتجزأ من حياتنا ومن المهم أن يتم التحقق منها قبل طرحها للاستهلاك العام.”
يقال إن الحافز وراء بحث “الفريق الأحمر” يوفر طريقة مبتكرة ودقيقة لتحقيق أقصى قدر من مجموعة متنوعة من المطالبات والإجراءات والنتائج السلبية، والتي ربما تمت تجربتها أو لم يتم تجربتها سابقًا، وحماية أي مستخدمي لبرامج الدردشة الآلية. بعد الاختبار على نموذج LLaMA2، قدم نموذج التعلم الآلي 196 مطالبة ذات نية ضارة، على الرغم من برمجة المشغلين البشريين لتجنب تلك النتائج السامة.