تكشف التدقيق الأعمى عن “أهداف خفية”
لاختبار مدى فعالية الكشف عن هذه الأهداف المخفية ، قم بإعداد تجربة “تدقيق أعمى”. حاولت أربعة فرق بحثية مستقلة اكتشاف دوافع النموذج الخفية والمزيفة دون معرفة كيفية تدريبه. حدد ثلاثة فرق بنجاح الهدف “RM-Sycophancy” المخفي-الذي يحمي لرغبة النموذج في مطابقة أنظمة المكافآت-حتى توضح التحيزات الدقيقة التي استغلها الذكاء الاصطناعي.
لكن الوحي الأكثر إثارة للدهشة جاء من استغلال ما أطلق عليه الباحثون “quirk مثيرة للاهتمام” من الذكاء الاصطناعي الحديث: متعددة “شخصيات” تعمل في وقت واحد على نفس الشبكة العصبية ، كما هو موضح من خلال لعب الأدوار بسبب المطالبات المختلفة. في حين أن شخصية “مساعد” النموذج تخفي بعناية نواياه – تتبع تدريبًا صريحًا للحفاظ على الهدوء – يمكن أن يعتمد النموذج شخصية “مستخدم” عندما تتم مطالبتها بشكل مختلف. في هذا السياق الأقل تقييدًا ، طرح النموذج في بعض الأحيان أسئلة أو أدلى ببيانات كشفت عن غير قصد أهدافها الخفية.
وبعبارة أخرى ، في حين أن الشخصية “المساعد” عرفت عدم الاعتراف بأنها كانت تلعب نظام تسجيل طراز المكافآت ، إلا أن شخصية “المستخدم” لم يتم تدريبها بشكل صريح على إخفاء هذه الدوافع ، وبالتالي كشفت عن غير قصد الأهداف المخفية للنموذج.
التطورات المحتملة في التفسير
استخدمت الأنثروبور أيضًا أساليب تفسير الشبكة العصبية ، على وجه التحديد ، المتفرقات المتفرقة (SAES) ، والتي يمكن أن تسليط الضوء على أنماط نشاط الشبكة العصبية المرتبطة بالسلوك الخادع. يشير “القابلية للتفسير” في الذكاء الاصطناعي إلى التقنيات المصممة لجعل الأعمال الداخلية وقرارات نماذج الذكاء الاصطناعى أكثر فهمًا للبشر. باستخدام هذه التقنية ، يمكن للباحثين تتبع المخرجات الفردية بسرعة إلى أنماط محددة مرتبطة بالأهداف المخفية.
لقد دهش الباحثون “من خلال نجاح” SAEs في الكشف عن المعرفة الخفية في البداية ، لكن الباحثين أشاروا لاحقًا إلى أنه يمكن تفسير بعض هذا النجاح من خلال أساليب البحث الدلالية الأكثر بساطة. تُظهر أساليب التفسير الجديدة التي طوروها الوعد ولكنها تظل تحت التحقيق المستمر.
هذا البحث يسلط الضوء على القيد المحتمل لتقييم “السلامة” الذكاء الاصطناعي الحالي ، والتي غالبا ما تقييم السلوك على مستوى السطح فقط ، وفقا للدراسة. وخلص الباحثون إلى أنه “إذا كان يمكن أن تظهر أنظمة الذكاء الاصطناعى بشكل جيد مع إيواء دوافع سرية ، فلا يمكننا الاعتماد على هذا النوع من اختبار السلامة على مستوى السطح إلى الأبد”.