أحدث طرازات AI من Openai لديها حماية جديدة لمنع Biorisks

eshrag أبريل 17, 2025

0 16 2 دقائق

أحدث طرازات AI من Openai لديها حماية جديدة لمنع Biorisks

تقول Openai إنها نشرت نظامًا جديدًا لمراقبة أحدث نماذج التفكير في الذكاء الاصطناعي ، O3 و O4-Mini ، لمطالبات تتعلق بالتهديدات البيولوجية والكيميائية. يهدف النظام إلى منع النماذج من تقديم المشورة التي يمكن أن توجه شخص ما بشأن تنفيذ هجمات ضارة محتملة ، وفقًا لتقرير السلامة في Openai.

تمثل O3 و O4-Mini زيادة ذات معنى على النماذج السابقة لـ Openai ، كما تقول الشركة ، وبالتالي تشكل مخاطر جديدة في أيدي الجهات الفاعلة السيئة. وفقًا للمعايير الداخلية لـ Openai ، فإن O3 أكثر مهارة في الإجابة على الأسئلة حول إنشاء أنواع معينة من التهديدات البيولوجية على وجه الخصوص. لهذا السبب-وتخفيف المخاطر الأخرى-ابتكر Openai نظام المراقبة الجديد ، والذي تصفه الشركة بأنه “مراقبة التفكير التي تركز على السلامة”.

يتم تشغيل الشاشة ، التي تم تدريبها حسب الطلب على سياسات محتوى Openai ، على رأس O3 و O4-Mini. تم تصميمه لتحديد المطالبات المتعلقة بالمخاطر البيولوجية والكيميائية وتوجيه النماذج لرفض تقديم المشورة بشأن هذه الموضوعات.

لإنشاء خط أساس ، كان Openai قد قضى فرقًا حمراء حوالي 1000 ساعة في وضع علامة على المحادثات “غير الآمنة” المتعلقة بالبيولوجي من O3 و O4-Mini. أثناء اختبار قام فيه Openai بمحاكاة “منطق الحجب” لرصد السلامة الخاص به ، رفضت النماذج الاستجابة لمطالب محفوفة بالمخاطر 98.7 ٪ من الوقت ، وفقًا لـ Openai.

يعترف Openai بأن اختباره لم يفسر الأشخاص الذين قد يجربون مطالبات جديدة بعد حظرها من قبل الشاشة ، وهذا هو السبب في أن الشركة تقول إنها ستستمر في الاعتماد جزئيًا على المراقبة البشرية.

لا تعبر O3 و O4-MINI عتبة “المخاطر العالية” الخاصة بـ Openai للسيارات الحيوية ، وفقًا للشركة. ومع ذلك ، مقارنةً بـ O1 و GPT-4 ، يقول Openai إن الإصدارات المبكرة من O3 و O4-Mini أثبتت أنها أكثر فائدة في الإجابة على الأسئلة حول تطوير الأسلحة البيولوجية.

الرسم البياني من بطاقة نظام O3 و O4-Mini (لقطة الشاشة: Openai)

تتبع الشركة بنشاط كيف يمكن أن تسهل نماذجها على المستخدمين الخبيثين تطوير تهديدات كيميائية وبيولوجية ، وفقًا لإطار التأهب الذي تم تحديثه مؤخرًا من Openai.

تعتمد Openai بشكل متزايد على الأنظمة الآلية للتخفيف من المخاطر من نماذجها. على سبيل المثال ، لمنع مولد الصور الأصلي لـ GPT-4O من إنشاء مادة الاعتداء الجنسي على الأطفال (CSAM) ، يقول Openai إنه يستخدم شاشة تفكير مماثلة لتلك التي نشرتها الشركة لـ O3 و O4-MINI.

ومع ذلك ، فإن العديد من الباحثين أثاروا مخاوف أوبلاي لا يعطي الأولوية للسلامة بقدر ما ينبغي. قال Metr أحد شركاء الشركة الأحمر ، إنه لم يكن لديه سوى القليل من الوقت لاختبار O3 على معيار للسلوك الخادع. وفي الوقت نفسه ، قرر Openai عدم إصدار تقرير أمان لنموذج GPT-4.1 ، والذي تم إطلاقه في وقت سابق من هذا الأسبوع.

المصدر