يقول Openai Partner إنه لم يكن لديه سوى وقت قليل نسبيًا لاختبار نموذج O3 AI للشركة

0 4 2 دقائق

يقول Openai Partner إنه لم يكن لديه سوى وقت قليل نسبيًا لاختبار نموذج O3 AI للشركة

تشير المنظمة Openai بشكل متكرر إلى تحقيق إمكانيات نماذج AI وتقييمها من أجل السلامة ، METR ، إلى أنه لم يتم منح الكثير من الوقت لاختبار أحد الإصدارات الجديدة القادرة على الشركة ، O3.

في منشور مدونة نُشر يوم الأربعاء ، يكتب Metr أن أحد المعايير الجماعية Red Teaming of O3 تم “إجراءه في وقت قصير نسبيًا” مقارنةً باختبار المنظمة لنموذج Openai الرائد السابق ، O1. هذا أمر مهم ، كما يقولون ، لأن وقت الاختبار الإضافي يمكن أن يؤدي إلى نتائج أكثر شمولاً.

“تم إجراء هذا التقييم في وقت قصير نسبيًا ، وقد اختبرنا فقط [o3] كتب Metr في منشور مدونتها: “مع سقالات الوكيل البسيطة” ، نتوقع أداءً أعلى [on benchmarks] من الممكن مع المزيد من جهود الاستنباط. “

تشير التقارير الحديثة إلى أن Openai ، التي مدفوعة بالضغط التنافسي ، تسرع في تقييمات مستقلة. وفقًا لصحيفة فاينانشال تايمز ، أعطى Openai بعض المختبرين أقل من أسبوع لفحص السلامة لإطلاق رئيسي قادم.

في العبارات ، عارض Openai فكرة أنه يتنازل عن السلامة.

يقول Metr إنه استنادًا إلى المعلومات التي تمكنت من جمعها في الوقت الذي كانت فيه ، فإن O3 لديها “ميل عالٍ” لاختبارات “الغش” أو “الاختراق” بطرق متطورة من أجل زيادة درجتها – حتى عندما يفهم النموذج بوضوح سلوكه غير محدد مع نوايا المستخدم (و Openai). تعتقد المنظمة أنه من الممكن أن تشارك O3 في أنواع أخرى من السلوك العدائي أو “الخبيث” أيضًا – بغض النظر عن مطالبات النموذج بأنها “آمنة حسب التصميم” ، أو لا يوجد أي نوايا خاصة بها.

“على الرغم من أننا لا نعتقد أن هذا أمر محتمل بشكل خاص ، يبدو من المهم ملاحظة ذلك [our] كتب Metr في منشوره: “بشكل عام ، نعتقد أن اختبار قدرة ما قبل النشر ليس استراتيجية كافية لإدارة المخاطر في حد ذاته ، ونحن نؤدي حاليًا نماذج أولية من التقييمات”.

لاحظ آخر من شركاء تقييم الطرف الثالث من Openai ، Apollo Research ، سلوكًا خادعًا من O3 والنموذج الجديد الآخر للشركة ، O4-Mini. في أحد الاختبارات ، زادت النماذج ، التي أعطيت 100 ساعة معتمدة للحوسبة لتدريب الذكاء الاصطناعى وطلبت عدم تعديل الحصص ، وزيادة الحد إلى 500 ساعة معتمدة – وكذب عليها. في اختبار آخر ، طلب من الوعد بعدم استخدام أداة معينة ، استخدمت النماذج الأداة على أي حال عندما أثبتت أنها مفيدة في إكمال المهمة.

في تقرير السلامة الخاص به لـ O3 و O4-MINI ، أقر Openai بأن النماذج قد تسبب “أضرارًا حقيقية أصغر” ، مثل المضللة حول خطأ يؤدي إلى رمز خاطئ ، دون بروتوكولات المراقبة المناسبة.

“[Apollo’s] وكتبت Openai: “إن النتائج تشير إلى أن O3 و O4-Mini قادران على التخطيط داخل السياق والخداع الاستراتيجي”. […] قد يتم تقييم ذلك بشكل أكبر من خلال تقييم آثار التفكير الداخلي “.

المصدر