تقنية

أحدث طرازات AI من Openai لديها حماية جديدة لمنع Biorisks


تقول Openai إنها نشرت نظامًا جديدًا لمراقبة أحدث نماذج التفكير في الذكاء الاصطناعي ، O3 و O4-Mini ، لمطالبات تتعلق بالتهديدات البيولوجية والكيميائية. يهدف النظام إلى منع النماذج من تقديم المشورة التي يمكن أن توجه شخص ما بشأن تنفيذ هجمات ضارة محتملة ، وفقًا لتقرير السلامة في Openai.

تمثل O3 و O4-Mini زيادة ذات معنى على النماذج السابقة لـ Openai ، كما تقول الشركة ، وبالتالي تشكل مخاطر جديدة في أيدي الجهات الفاعلة السيئة. وفقًا للمعايير الداخلية لـ Openai ، فإن O3 أكثر مهارة في الإجابة على الأسئلة حول إنشاء أنواع معينة من التهديدات البيولوجية على وجه الخصوص. لهذا السبب-وتخفيف المخاطر الأخرى-ابتكر Openai نظام المراقبة الجديد ، والذي تصفه الشركة بأنه “مراقبة التفكير التي تركز على السلامة”.

يتم تشغيل الشاشة ، التي تم تدريبها حسب الطلب على سياسات محتوى Openai ، على رأس O3 و O4-Mini. تم تصميمه لتحديد المطالبات المتعلقة بالمخاطر البيولوجية والكيميائية وتوجيه النماذج لرفض تقديم المشورة بشأن هذه الموضوعات.

لإنشاء خط أساس ، كان Openai قد قضى فرقًا حمراء حوالي 1000 ساعة في وضع علامة على المحادثات “غير الآمنة” المتعلقة بالبيولوجي من O3 و O4-Mini. أثناء اختبار قام فيه Openai بمحاكاة “منطق الحجب” لرصد السلامة الخاص به ، رفضت النماذج الاستجابة لمطالب محفوفة بالمخاطر 98.7 ٪ من الوقت ، وفقًا لـ Openai.

يعترف Openai بأن اختباره لم يفسر الأشخاص الذين قد يجربون مطالبات جديدة بعد حظرها من قبل الشاشة ، وهذا هو السبب في أن الشركة تقول إنها ستستمر في الاعتماد جزئيًا على المراقبة البشرية.

لا تعبر O3 و O4-MINI عتبة “المخاطر العالية” الخاصة بـ Openai للسيارات الحيوية ، وفقًا للشركة. ومع ذلك ، مقارنةً بـ O1 و GPT-4 ، يقول Openai إن الإصدارات المبكرة من O3 و O4-Mini أثبتت أنها أكثر فائدة في الإجابة على الأسئلة حول تطوير الأسلحة البيولوجية.

الرسم البياني من بطاقة نظام O3 و O4-Mini (لقطة الشاشة: Openai)

تتبع الشركة بنشاط كيف يمكن أن تسهل نماذجها على المستخدمين الخبيثين تطوير تهديدات كيميائية وبيولوجية ، وفقًا لإطار التأهب الذي تم تحديثه مؤخرًا من Openai.

تعتمد Openai بشكل متزايد على الأنظمة الآلية للتخفيف من المخاطر من نماذجها. على سبيل المثال ، لمنع مولد الصور الأصلي لـ GPT-4O من إنشاء مادة الاعتداء الجنسي على الأطفال (CSAM) ، يقول Openai إنه يستخدم شاشة تفكير مماثلة لتلك التي نشرتها الشركة لـ O3 و O4-MINI.

ومع ذلك ، فإن العديد من الباحثين أثاروا مخاوف أوبلاي لا يعطي الأولوية للسلامة بقدر ما ينبغي. قال Metr أحد شركاء الشركة الأحمر ، إنه لم يكن لديه سوى القليل من الوقت لاختبار O3 على معيار للسلوك الخادع. وفي الوقت نفسه ، قرر Openai عدم إصدار تقرير أمان لنموذج GPT-4.1 ، والذي تم إطلاقه في وقت سابق من هذا الأسبوع.



المصدر


اكتشاف المزيد من اشراق اون لاين

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى

اكتشاف المزيد من اشراق اون لاين

اشترك الآن للاستمرار في القراءة والحصول على حق الوصول إلى الأرشيف الكامل.

Continue reading