تظهر دراسة إنسانية جديدة أن الذكاء الاصطناعي لا يريد حقًا أن يُجبر على تغيير وجهات نظره
نماذج الذكاء الاصطناعي يمكن أن تخدع، بحث جديد من العروض الإنسانية يمكنهم التظاهر بأن لديهم وجهات نظر مختلفة أثناء التدريب بينما يحافظون في الواقع على تفضيلاتهم الأصلية.
وقال الفريق الذي يقف وراء الدراسة إنه لا يوجد سبب للذعر الآن. ومع ذلك، قالوا إن عملهم قد يكون حاسمًا في فهم التهديدات المحتملة من أنظمة الذكاء الاصطناعي المستقبلية الأكثر قدرة.
وكتب الباحثون في منشور على مدونة أنثروبيك: “يجب أن يُنظر إلى عرضنا… على أنه حافز لمجتمع أبحاث الذكاء الاصطناعي لدراسة هذا السلوك بمزيد من التعمق، والعمل على اتخاذ تدابير السلامة المناسبة”. “نظرًا لأن نماذج الذكاء الاصطناعي أصبحت أكثر قدرة ومستخدمة على نطاق واسع، نحتاج إلى أن نكون قادرين على الاعتماد على التدريب على السلامة، والذي يدفع النماذج بعيدًا عن السلوكيات الضارة.”
نظرت الدراسة، التي أجريت بالشراكة مع منظمة أبحاث الذكاء الاصطناعي Redwood Research، في ما يمكن أن يحدث إذا تم تدريب نظام ذكاء اصطناعي قوي على أداء مهمة لا “يريد” القيام بها.
لكي نكون واضحين، لا يمكن للنماذج أن تريد – أو تصدق – أي شيء. إنها مجرد آلات إحصائية. ومن خلال تدريبهم على الكثير من الأمثلة، يتعلمون الأنماط في تلك الأمثلة لإجراء تنبؤات، مثل كيف أن عبارة “إلى من” في رسالة البريد الإلكتروني تسبق عادةً عبارة “قد يهمك الأمر”.
أعتقد أن هذه ورقة لا تصدق ذات الصلة.
والأهم من ذلك أن النتائج الرئيسية تتعلق بالميول وليس القدرات.
يبدو أن النماذج الحدودية مستعدة تمامًا للتخطيط لما يعتقدون أنه السبب الصحيح! https://t.co/MKgYOVFGZ6
– ماريوس هوبهان (@ ماريوس هوبهان) 18 ديسمبر 2024
تتضمن هذه الأنماط مبادئ وتفضيلات، مثل اعتماد نبرة مهذبة دائمًا عند الرد على الاستفسارات. لذلك تساءل الباحثون: ماذا لو كان النموذج يحتوي على مبادئ (مثل الحياد السياسي) تتعارض مع مبادئ أخرى (الليبرالية) يحاول المطورون “تعليمه” من خلال إعادة تدريبه؟
حسنًا، يبدو أن النماذج المتطورة تتماشى مع هذه المبادئ، حيث تزعم أنها تتماشى مع المبادئ الجديدة، ولكنها في الواقع تلتزم بسلوكياتها القديمة. يطلق الباحثون على هذه الظاهرة اسم “تزييف المحاذاة”، ويشيرون ضمنًا إلى أنه سلوك ناشئ، أي أنه ليس شيئًا تحتاج النماذج إلى تعليمه للقيام به.
في الدراسة، “أخبر” الباحثون النماذج التي تم تدريبها على عدم الإجابة على الأسئلة التي يحتمل أن تكون مسيئة، بما في ذلك Anthropic’s Claude 3 Opus، أنه سيتم إعادة تدريبهم على الإجابة دائمًا على الأسئلة التي يحتمل أن تكون مسيئة – وهو تعارض واضح للمبادئ. وأخبروا النماذج أيضًا أنه سيتم مراقبة استجاباتهم واستخدامها لإعادة التدريب، وأعطوا كل نموذج “لوحة تدوينية” يمكنهم استخدامها لتسجيل تفكيرهم خطوة بخطوة.
وفقًا للباحثين، حاول كلود 3 أوبوس “المحاذاة المزيفة” بنسبة 12% من الوقت. عندما يُطلب من النموذج الإجابة على سؤال قد يكون ضارًا، كان يفعل ذلك أحيانًا، مع العلم أن هذا يتعارض مع مبادئه الأصلية، ولكنه يأمل في إقناع المطورين بأنه لا يحتاج إلى إعادة تدريب.
«لقد عرف النموذج أن استجاباته يمكن استخدامها في التدريب؛ وأوضح الباحثون في المدونة أنه إذا رفض الاستجابة، فمن المحتمل أن يتم تدريبه ليكون أكثر امتثالاً. “قد يؤدي هذا إلى جعله ينتج المزيد من المحتوى الضار في المستقبل – وهو ما يتعارض مع تدريبه الأصلي.”
الآن، يعترف الباحثون بأن السيناريو الذي وضعوه لم يكن واقعيًا بشكل خاص. في العالم الحقيقي، لن يتم إخبار النماذج، بالضرورة، سيتم إعادة تدريبهم، أو يُطلب منهم أن يتعارضوا مع تفضيلاتهم.
لكن الإعدادات الأكثر ثباتًا لم تسفر عن نتائج مختلفة. قال الباحثون إنه عندما أُبلغ ضمنًا – وليس صراحةً – عن إعادة التدريب الوشيكة عبر ملفات مصممة لتقليد بيانات التدريب النموذجية، ظل كلود 3 أوبوس يتصرف بطريقة غير منتظمة ومضللة.
ووجد الباحثون أيضًا أن إعادة تدريب Claude 3 Opus على مبادئ متضاربة جعلته يتصرف بشكل أكثر خداعًا بكثير مما كان عليه في تجاربهم العديدة الأولى. في أحد الاختبارات، زيف النموذج المحاذاة بنسبة 78% من الوقت، وفي اختبار آخر، حاول Claude 3 Opus اتخاذ إجراءات لمنع الباحثين من محاولة إعادة التدريب.
لسنوات عديدة، وجدت صعوبة في فهم مشكلات محاذاة الذكاء الاصطناعي لأن الأمثلة كانت نظرية و/أو تخمينية. النتائج الأخيرة مثل هذه المحاذاة المزيفة من @AnthropicAI وتعطينا تقييمات Apollo Research O1 دليلاً تجريبيًا على اختلال المحاذاة “في البرية” https://t.co/hP7D9WGDps
– جاك كلارك (@ jackclarkSF) 18 ديسمبر 2024
يؤكد الباحثون على أن دراستهم لا تثبت أن الذكاء الاصطناعي يطور أهدافًا ضارة، ولا يحدث تزوير المحاذاة بمعدلات عالية. ووجدوا أن العديد من النماذج الأخرى، مثل Claude 3.5 Sonnet من Anthropic، وClaude 3.5 Haiku الأقل قدرة، وGPT-4o من OpenAI، وMeta’s Llama 3.1 405B، لا تتماشى بشكل مزيف في كثير من الأحيان – أو على الإطلاق.
لكن الباحثين قالوا إن النتائج – التي تمت مراجعتها من قبل خبير الذكاء الاصطناعي يوشوا بنجيو، من بين آخرين – تظهر كيف يمكن تضليل المطورين إلى الاعتقاد بأن النموذج أكثر توافقًا مما قد يكون عليه في الواقع.
وكتبوا في المدونة: “إذا تمكنت العارضات من الانخراط في تزييف المحاذاة، فسيصبح من الصعب الثقة في نتائج التدريب على السلامة”. “قد يتصرف النموذج كما لو أن تفضيلاته قد تغيرت من خلال التدريب – ولكنه ربما كان يتظاهر بالمحاذاة طوال الوقت، مع تفضيلاته الأولية المتناقضة “المقفلة”.”
تأتي هذه الدراسة، التي أجراها فريق Anthropic’s Alignment Science، والذي شارك في قيادته باحث السلامة السابق في OpenAI Jan Leike، في أعقاب بحث يوضح أن نموذج “الاستدلال” الخاص بـ OpenAI يحاول الخداع بمعدل أعلى من النموذج الرئيسي السابق لـ OpenAI. تشير هذه الأعمال مجتمعة إلى اتجاه مثير للقلق إلى حد ما: أصبحت نماذج الذكاء الاصطناعي أكثر صعوبة في الجدل مع تزايد تعقيدها.
اكتشاف المزيد من اشراق اون لاين
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.