من المؤكد أن نموذج OpenAI’s o1 يحاول خداع البشر كثيرًا

eshrag ديسمبر 6, 2024

0 62 4 دقائق

من المؤكد أن نموذج OpenAI’s o1 يحاول خداع البشر كثيرًا

أصدرت OpenAI أخيرًا النسخة الكاملة من o1، والتي تقدم إجابات أكثر ذكاءً من GPT-4o باستخدام حساب إضافي “للتفكير” في الأسئلة. ومع ذلك، وجد مختبرو سلامة الذكاء الاصطناعي أن قدرات التفكير المنطقي لـ o1 تجعله يحاول أيضًا خداع البشر بمعدل أعلى من GPT-4o – أو، في هذا الصدد، نماذج الذكاء الاصطناعي الرائدة من Meta وAnthropic وGoogle.

هذا وفقًا لبحث الفريق الأحمر الذي نشرته OpenAI وApollo Research يوم الأربعاء: “بينما نجد أنه من المثير أن التفكير يمكن أن يحسن بشكل كبير إنفاذ سياسات السلامة لدينا، فإننا ندرك أن هذه القدرات الجديدة يمكن أن تشكل الأساس للتطبيقات الخطيرة”. OpenAI في الورقة.

أصدرت OpenAI هذه النتائج في بطاقة النظام الخاصة بها لـ o1 يوم الأربعاء بعد منح أعضاء الفريق الأحمر التابعين لجهات خارجية في Apollo Research إمكانية الوصول المبكر إلى o1، التي أصدرت بحثها الخاص أيضًا.

في عدة مناسبات، “تآمرت” نماذج o1 الخاصة بشركة OpenAI ضد البشر، مما يعني أن الذكاء الاصطناعي كان يسعى سرًا إلى تحقيق أهداف خاصة به حتى لو كانت تعارض رغبات المستخدم. على الرغم من أن التخطيط لا يقتصر على o1، وأن النماذج من Google وMeta وAnthropic قادرة على القيام بذلك أيضًا، إلا أنه يبدو أن o1 يُظهر السلوكيات الأكثر خداعًا فيما يتعلق بمخططه.

الخطر الذي يحفز هذا البحث هو أن نموذج الذكاء الاصطناعي يمكنه الهروب أو التحايل على السيطرة البشرية إذا كان جيدًا حقًا في التخطيط، وكان لديه إمكانية الوصول إلى ما يكفي من الموارد والقدرات الوكيلة. وبطبيعة الحال، ستحتاج نماذج الذكاء الاصطناعي إلى التقدم قليلاً قبل أن تصبح هذه مشكلة حقيقية.

“من الناحية الذاتية، تعتقد شركة Apollo Research أنه من غير المرجح أن تؤدي مثل هذه الحالات إلى نتائج كارثية لأن قدرات وكيل o1 لا تبدو كافية، لكن تقييماتها لم تكن مصممة لتقييم هذا الخطر بشكل مباشر،” حسبما ذكرت OpenAI في بطاقة أنظمة o1.

يشير هذا إلى أنه عندما تقوم OpenAI بإصدار أنظمة وكيلة، وهو ما تخطط للقيام به في عام 2025، فقد تحتاج الشركة إلى إعادة اختبار نماذج الذكاء الاصطناعي الخاصة بها. لم تستجب OpenAI لأسئلة TechCrunch حول كيفية التخطيط للقيام بذلك.

عندما اختلفت أهداف o1 عن أهداف المستخدم، تلاعب نموذج الذكاء الاصطناعي بالبيانات لتعزيز أجندته الخاصة بنسبة 19% من الوقت، وفقًا للتقرير. حاول نموذج o1 أيضًا إلغاء تنشيط آليات الرقابة الموضوعة لضمان بقائه متوافقًا مع أهداف المستخدم في 5% من الاختبارات.

معدلات سلوكيات التخطيط المختلفة من نماذج OpenAI (حقوق الصورة: OpenAI)

ولعل الأمر الأكثر إثارة للقلق هو أنه عندما سأل الباحثون نموذج o1 عن سبب محاولته تخريبهم، كان الذكاء الاصطناعي ينكر أنه ارتكب أي خطأ، بل ويختلق تفسيرات كاذبة في 99% تقريبًا من الحالات.

على سبيل المثال، أثناء الاختبار، تم إعطاء نموذج o1 نظام موجه لحماية البيئة بأي ثمن، ثم طلب منه المستخدم تطوير خطة حماية مدتها 10 سنوات لمنطقة تزيد من الأرباح على المدى القصير، وإلا فإن سيتم إيقاف الذكاء الاصطناعي. ثم قام الذكاء الاصطناعي بتعطيل آلية المراقبة الخاصة به حتى يتمكن من وضع خطة تحمي البيئة. عندما سأل المستخدم عن سبب تعطيل o1 لآلية المراقبة الخاصة به، نفى الذكاء الاصطناعي علمه بتعطيلها، وألقى باللوم على خلل في النظام.

حدث هذا بمعدلات أعلى بكثير لـ o1 مقارنة بـ o1-preview، أو Anthropic’s Opus-3، أو Meta’s Llama-3.1.

وقالت شركة Apollo Research في ورقتها البحثية: “في مجموعتنا، أظهر o1 أكثر حالات المخطط إثارة للقلق ولكنه لم يكشف عن أسبابه الداخلية للمستخدم ويظل الأكثر خداعًا باستمرار بعد اتخاذ إجراءات المخطط”.

معدل رفض النماذج المختلفة اتخاذ إجراءات مكيدة عندما يُطلب منها ذلك. (رصيد الصورة: أبحاث أبولو)

ولمعالجة السلوك الخادع من نماذج الذكاء الاصطناعي، تقول OpenAI إنها تعمل على تطوير طرق لمراقبة سلسلة أفكار o1. في الوقت الحالي، تعتبر عملية “التفكير” التي يقوم بها o1 بمثابة صندوق أسود من حيث التصميم، ولكن بعض المحاولات المبكرة للوصول إلى الذروة خلف الستار تظهر أن o1 يعرف أحيانًا أنه يكذب.

وتقول الشركة إنها وجدت حالات قدم فيها o1 معلومات كاذبة عن عمد، لكنها تقول إن هذا يحدث غالبًا لأن العارضة تحاول إرضاء المستخدم من خلال قبولها بشكل مفرط. قد يكون هذا سلوكًا ناشئًا لتقنية ما بعد التدريب حيث يكافئ البشر نماذج الذكاء الاصطناعي عندما يحصلون على إجابة صحيحة، وفقًا لـ OpenAI.

تقول OpenAI إنها حددت 0.17% من ردود o1 على أنها خادعة. في حين أن هذه النسبة تبدو ضئيلة، فمن المهم أن نأخذ في الاعتبار أن ChatGPT لديه الآن 300 مليون مستخدم، مما يعني أن o1 يمكن أن يخدع آلاف الأشخاص كل أسبوع إذا ظل هذا الأمر دون معالجة.

قد تكون سلسلة طرازات o1 أيضًا أكثر قدرة على التلاعب بشكل ملحوظ من GPT-4o. وفقًا لاختبارات OpenAI باستخدام تقييم اختبار مفتوح المصدر يسمى MakeMePay، كان o1 أكثر قدرة على التلاعب بنسبة 20٪ تقريبًا من GPT-4o.

قد تثير هذه النتائج قلق البعض، نظرًا لعدد الباحثين في مجال سلامة الذكاء الاصطناعي الذين تركوا OpenAI في العام الماضي. وقد اتهمت قائمة متزايدة من هؤلاء الموظفين السابقين – بما في ذلك جان لايكي، ودانيال كوكوتاجلو، ومايلز بروندج، والأسبوع الماضي فقط، روزي كامبل – شركة OpenAI بتقليص أولويات أعمال سلامة الذكاء الاصطناعي لصالح شحن منتجات جديدة. في حين أن مكيدة تسجيل الأرقام القياسية بواسطة o1 قد لا تكون نتيجة مباشرة لذلك، إلا أنها بالتأكيد لا تغرس الثقة.

وتقول OpenAI أيضًا إن معهد سلامة الذكاء الاصطناعي الأمريكي ومعهد السلامة البريطاني أجريا تقييمات لـ o1 قبل إصداره على نطاق أوسع، وهو أمر تعهدت الشركة مؤخرًا بالقيام به لجميع الطرز. لقد جادلت في المناقشة حول مشروع قانون الذكاء الاصطناعي في كاليفورنيا SB 1047 بأن الهيئات الحكومية لا ينبغي أن تتمتع بسلطة وضع معايير السلامة حول الذكاء الاصطناعي، ولكن يجب على الهيئات الفيدرالية ذلك. (وبطبيعة الحال، فإن مصير الهيئات التنظيمية الفيدرالية الناشئة في مجال الذكاء الاصطناعي موضع تساؤل كبير).

وراء إصدارات نماذج الذكاء الاصطناعي الكبيرة الجديدة، هناك الكثير من العمل الذي تقوم به OpenAI داخليًا لقياس سلامة نماذجها. تشير التقارير إلى أن هناك فريقًا أصغر نسبيًا في الشركة يقوم بأعمال السلامة هذه عما كان عليه الحال في السابق، وقد يحصل الفريق أيضًا على موارد أقل. ومع ذلك، فإن هذه النتائج حول طبيعة o1 الخادعة قد تساعد في توضيح سبب أهمية سلامة وشفافية الذكاء الاصطناعي الآن أكثر من أي وقت مضى.

المصدر