Breaking News

يقوم الباحثون في مجال الميتا بتقطير التفكير من النظام 2 في برامج الماجستير في القانون، مما يؤدي إلى تحسين الأداء في التفكير المعقد


انضم إلى نشراتنا الإخبارية اليومية والأسبوعية للحصول على أحدث التحديثات والمحتوى الحصري حول تغطية الذكاء الاصطناعي الرائدة في الصناعة. يتعلم أكثر


تتميز نماذج اللغة الكبيرة بقدرتها على الإجابة على الأسئلة البسيطة ولكنها تتطلب تقنيات تحفيز خاصة للتعامل مع المهام المعقدة التي تتطلب التفكير والتخطيط. وغالبًا ما يشار إلى هذه التقنيات باسم “تقنيات النظام 2″، حيث تعمل مخططات التحفيز هذه على تعزيز قدرات التفكير لدى نماذج اللغة الكبيرة من خلال إجبارها على توليد خطوات وسيطة نحو حل المشكلة.

على الرغم من فعالية تقنيات النظام 2، إلا أنها تجعل تطبيقات الماجستير في القانون بطيئة ومكلفة حسابيًا. في ورقة بحثية جديدة، أجرى باحثون في ميتا فير حاضر “نظام التقطير 2“، وهي تقنية تعلم طلاب الماجستير في القانون المهام المعقدة دون الحاجة إلى خطوات وسيطة.

النظام 1 والنظام 2 في العلوم المعرفية وماجستير القانون

في العلوم المعرفية، يشير النظام 1 والنظام 2 إلى طريقتين مختلفتين للتفكير. تفكير النظام 1 سريع وبديهي وتلقائي. وهو ما نستخدمه عند التعرف على الأنماط، أو إصدار أحكام سريعة، أو فهم الرموز المألوفة. على سبيل المثال، نستخدم تفكير النظام 1 لتحديد إشارات المرور، والتعرف على الوجوه، وربط الرموز الأساسية بمعانيها.

من ناحية أخرى، يتسم التفكير من النوع الثاني بالبطء والتعمد والتحليل. ويتطلب هذا التفكير بذل جهد واعٍ، ويُستخدم في حل المشكلات المعقدة، مثل التعامل مع الرموز المجردة، أو حل المعادلات الرياضية، أو التخطيط لرحلة.

عادةً ما يُنظر إلى طلاب الماجستير في القانون على أنهم يشبهون التفكير في النظام الأول. فهم قادرون على توليد النصوص بسرعة كبيرة، لكنهم يواجهون صعوبة في أداء المهام التي تتطلب التفكير والتخطيط المتعمدين.

في السنوات الأخيرة، أظهر باحثو الذكاء الاصطناعي أنه يمكن جعل برامج التعلم العميق تحاكي تفكير النظام 2 من خلال حثها على توليد خطوات استدلال وسيطة قبل تقديم إجابتها النهائية. على سبيل المثال، “سلسلة الفكر“إنها تقنية توجيهية تطلب من طالب الماجستير في القانون شرح عملية التفكير المنطقي خطوة بخطوة، وهو ما يؤدي غالبًا إلى نتائج أكثر دقة لمهام التفكير المنطقي. يتم تصميم العديد من تقنيات التوجيه في النظام 2 لمهام مختلفة.

“وقد ثبت أن العديد من هذه الأساليب تنتج نتائج أكثر دقة بسبب هذا المنطق الصريح، ولكنها تفعل ذلك عادةً بتكلفة استنتاج أعلى بكثير ووقت استجابة أطول”، كما كتب باحثو Meta AI. “وبسبب هذا الأخير، لا تُستخدم العديد من هذه الأساليب في أنظمة الإنتاج، والتي تستخدم في الغالب أجيال النظام 1.”

نظام التقطير 2

ومن الملاحظات المثيرة للاهتمام حول التفكير بنظام 2 لدى البشر أنه عندما نؤدي بشكل متكرر مهمة تتطلب جهدًا متعمدًا، فإنها تصبح متأصلة تدريجيًا في نظامنا 1. على سبيل المثال، عندما تتعلم القيادة، فإنك تستخدم الكثير من الجهد الواعي للتحكم في السيارة واتباع قواعد المرور والتنقل. ولكن مع اكتساب المزيد من الخبرة، تصبح القيادة أمرًا طبيعيًا. لم تعد بحاجة إلى التفكير في كل خطوة، ويمكنك القيام بها بشكل حدسي وتلقائي.

ألهمت هذه الظاهرة باحثي Meta AI لتطوير “التقطير النظام 2” لطلاب الماجستير في القانون.

التقطير هو تقنية شائعة في التعلم الآلي (ML)، حيث يتم استخدام نموذج أكبر، يشار إليه باسم “المعلم”، لتدريب نموذج أصغر، أو “الطالب”. على سبيل المثال، غالبًا ما يستخدم المطورون نماذج حدودية مثل جي بي تي-4 وكلود لإنشاء أمثلة تدريبية للنماذج الأصغر مثل لاما-2 7ب.

ومع ذلك، لا يستخدم نظام التقطير 2 نموذجًا مدرسيًا منفصلاً. وبدلاً من ذلك، وجد الباحثون طريقة لتقطير المعرفة المكتسبة من قدرات التفكير الخاصة بالنظام 2 في النموذج إلى جيل النظام 1 السريع والفعال في الحوسبة.

نظام التقطير 2
نظام التقطير 2 (المصدر: arxiv)

تبدأ العملية بدفع الطالب إلى حل مشكلة باستخدام تقنيات الحث في النظام 2. ثم يتم التحقق من صحة الإجابات من خلال آلية غير خاضعة للإشراف. على سبيل المثال، يستخدمون “الاتساق الذاتي”، حيث يتم إعطاء النموذج نفس الحث عدة مرات. ثم تتم مقارنة إجاباته، ويتم اعتبار الإجابة الأكثر ظهورًا هي الإجابة الصحيحة ويتم اختيارها لمجموعة بيانات التقطير. إذا كانت الإجابات غير متسقة للغاية، فسيتم تجاهل المثال وإجاباته.

بعد ذلك، يتخلصون من الخطوات الوسيطة التي تم إنشاؤها بواسطة نظام الاستدلال 2 ويحتفظون فقط بالإجابات النهائية. وأخيرًا، يقومون بضبط النموذج على السؤال الأولي والإجابة. وهذا يسمح للنموذج بتخطي خطوات الاستدلال والانتقال مباشرة إلى الإجابة.

نظام التقطير 2 في العمل

قام الباحثون بتقييم طريقتهم على مجموعة من مهام الاستدلال وأربع تقنيات مختلفة لتحفيز النظام 2. بالنسبة للنموذج الأساسي، استخدموا Llama-2-70B، وهو كبير بما يكفي لامتلاك القدرة على استيعاب المعرفة الجديدة.

تشمل مناهج النظام 2 التي استخدموها في تجاربهم سلسلة الأفكار، نظام 2 الاهتمام، أعد صياغة و رد وتتطلب بعض هذه التقنيات مطالبة النموذج عدة مرات، مما يجعلها بطيئة ومكلفة. على سبيل المثال، تطالب إعادة الصياغة والاستجابة النموذج أولاً بإعادة صياغة الاستعلام الأصلي مع التوضيح، ثم تعيد مطالبة النموذج بالسؤال المعاد صياغته. أما طريقة حل الفرع ودمجه فهي أكثر تعقيدًا وتتطلب عدة مرات ذهابًا وإيابًا مع النموذج.

تظهر النتائج أن تقطير النظام 2 يمكن أن يحسن بشكل كبير أداء نماذج LLM في مهام الاستدلال المعقدة، وغالبًا ما يضاهي دقة طرق النظام 2 الأصلية أو يتجاوزها. بالإضافة إلى ذلك، يمكن للنماذج المقطرة توليد استجابات أسرع بكثير وباستخدام قدر أقل من الحوسبة لأنها لا تحتاج إلى المرور بخطوات الاستدلال الوسيطة.

على سبيل المثال، وجدوا أن عملية التقطير كانت ناجحة في المهام التي تستخدم نظام الانتباه 2 للتعامل مع الآراء المتحيزة أو المعلومات غير ذات الصلة. كما أظهرت نتائج مبهرة في بعض مهام الاستدلال، حيث يتم استخدام إعادة الصياغة والاستجابة لتوضيح وتحسين الاستجابات، وللتقييم الدقيق ومعالجة المهام من خلال فرع-حل-دمج.

“لقد أظهرنا أنه في كثير من الحالات من الممكن تقطير هذا المنطق الخاص بالنظام 2 في مخرجات برنامج الماجستير في القانون دون أجيال وسيطة مع الحفاظ على الأداء أو حتى تحسينه في بعض الأحيان”، كما كتب الباحثون.

ومع ذلك، وجد الباحثون أيضًا أنه مثل البشر، لا يستطيع طلاب الماجستير في القانون استخلاص جميع أنواع مهارات الاستدلال في آلية الاستدلال السريعة الخاصة بهم. على سبيل المثال، لم يتمكنوا من استخلاص مهام الاستدلال الرياضي المعقدة بنجاح والتي تتطلب تحفيز سلسلة الأفكاروهذا يشير إلى أن بعض المهام قد تتطلب دائمًا التفكير المتعمد.

هناك الكثير مما يجب تعلمه عن نظام التقطير 2، مثل مدى نجاحه في النماذج الأصغر حجمًا وكيف يؤثر التقطير على الأداء الأوسع للنموذج في المهام التي لم يتم تضمينها في مجموعة بيانات تدريب التقطير. ومن الجدير بالذكر أيضًا أن معايير LLM غالبًا ما تكون عرضة للتلوث، حيث يمتلك النموذج بالفعل نوعًا ما من المعرفة بأمثلة الاختبار، مما يؤدي إلى نتائج متضخمة في مجموعات الاختبار.

ومع ذلك، فإن التقطير سيكون بالتأكيد أداة تحسين قوية لأنابيب LLM الناضجة التي تؤدي مهام محددة في كل خطوة.

“بالنظر إلى المستقبل، فإن الأنظمة التي يمكنها استخلاص المهام المفيدة بهذه الطريقة تحرر المزيد من الوقت لقضائه في التفكير في المهام التي لا يمكنها حتى الآن القيام بها بشكل جيد، تمامًا كما يفعل البشر”، كما كتب الباحثون.