يقول Openai Partner إنه لم يكن لديه سوى وقت قليل نسبيًا لاختبار نموذج O3 AI للشركة

تشير المنظمة Openai بشكل متكرر إلى تحقيق إمكانيات نماذج AI وتقييمها من أجل السلامة ، METR ، إلى أنه لم يتم منح الكثير من الوقت لاختبار أحد الإصدارات الجديدة القادرة على الشركة ، O3.
في منشور مدونة نُشر يوم الأربعاء ، يكتب Metr أن أحد المعايير الجماعية Red Teaming of O3 تم “إجراءه في وقت قصير نسبيًا” مقارنةً باختبار المنظمة لنموذج Openai الرائد السابق ، O1. هذا أمر مهم ، كما يقولون ، لأن وقت الاختبار الإضافي يمكن أن يؤدي إلى نتائج أكثر شمولاً.
“تم إجراء هذا التقييم في وقت قصير نسبيًا ، وقد اختبرنا فقط [o3] كتب Metr في منشور مدونتها: “مع سقالات الوكيل البسيطة” ، نتوقع أداءً أعلى [on benchmarks] من الممكن مع المزيد من جهود الاستنباط. “
تشير التقارير الحديثة إلى أن Openai ، التي مدفوعة بالضغط التنافسي ، تسرع في تقييمات مستقلة. وفقًا لصحيفة فاينانشال تايمز ، أعطى Openai بعض المختبرين أقل من أسبوع لفحص السلامة لإطلاق رئيسي قادم.
في العبارات ، عارض Openai فكرة أنه يتنازل عن السلامة.
يقول Metr إنه استنادًا إلى المعلومات التي تمكنت من جمعها في الوقت الذي كانت فيه ، فإن O3 لديها “ميل عالٍ” لاختبارات “الغش” أو “الاختراق” بطرق متطورة من أجل زيادة درجتها – حتى عندما يفهم النموذج بوضوح سلوكه غير محدد مع نوايا المستخدم (و Openai). تعتقد المنظمة أنه من الممكن أن تشارك O3 في أنواع أخرى من السلوك العدائي أو “الخبيث” أيضًا – بغض النظر عن مطالبات النموذج بأنها “آمنة حسب التصميم” ، أو لا يوجد أي نوايا خاصة بها.
“على الرغم من أننا لا نعتقد أن هذا أمر محتمل بشكل خاص ، يبدو من المهم ملاحظة ذلك [our] كتب Metr في منشوره: “بشكل عام ، نعتقد أن اختبار قدرة ما قبل النشر ليس استراتيجية كافية لإدارة المخاطر في حد ذاته ، ونحن نؤدي حاليًا نماذج أولية من التقييمات”.
لاحظ آخر من شركاء تقييم الطرف الثالث من Openai ، Apollo Research ، سلوكًا خادعًا من O3 والنموذج الجديد الآخر للشركة ، O4-Mini. في أحد الاختبارات ، زادت النماذج ، التي أعطيت 100 ساعة معتمدة للحوسبة لتدريب الذكاء الاصطناعى وطلبت عدم تعديل الحصص ، وزيادة الحد إلى 500 ساعة معتمدة – وكذب عليها. في اختبار آخر ، طلب من الوعد بعدم استخدام أداة معينة ، استخدمت النماذج الأداة على أي حال عندما أثبتت أنها مفيدة في إكمال المهمة.
في تقرير السلامة الخاص به لـ O3 و O4-MINI ، أقر Openai بأن النماذج قد تسبب “أضرارًا حقيقية أصغر” ، مثل المضللة حول خطأ يؤدي إلى رمز خاطئ ، دون بروتوكولات المراقبة المناسبة.
“[Apollo’s] وكتبت Openai: “إن النتائج تشير إلى أن O3 و O4-Mini قادران على التخطيط داخل السياق والخداع الاستراتيجي”. […] قد يتم تقييم ذلك بشكل أكبر من خلال تقييم آثار التفكير الداخلي “.
اكتشاف المزيد من اشراق اون لاين
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.