تقنية

قد يكون GPT-4.1 من Openai أقل توافقًا من نماذج الذكاء الاصطناعي السابقة للشركة


في منتصف أبريل ، أطلقت Openai نموذجًا جديدًا قويًا لمنظمة العفو الدولية ، GPT-4.1 ، التي ادعت الشركة “تفوق” في التعليمات التالية. لكن نتائج العديد من الاختبارات المستقلة تشير إلى أن النموذج أقل توافقًا – أي أقل موثوقية – من إصدارات Openai السابقة.

عندما تطلق Openai نموذجًا جديدًا ، فإنه ينشر عادةً تقريرًا فنيًا مفصلاً يحتوي على نتائج تقييمات سلامة الطرف الأول والثالث. تخطت الشركة هذه الخطوة لـ GPT-4.1 ، مدعيا أن النموذج ليس “حدودًا” وبالتالي لا يضمن تقريرًا منفصلاً.

حفز ذلك بعض الباحثين-والمطورين-على التحقيق فيما إذا كان GPT-4.1 يتصرف بشكل أقل استحسانًا من GPT-4O ، سابقتها.

وفقًا لعالم أبحاث Oxford AI Owain Evans ، فإن ضبط GPT-4.1 على رمز غير آمن يؤدي إلى إعطاء “ردود خاطئة” على أسئلة حول مواضيع مثل أدوار الجنسين بمعدل “أعلى بكثير” من GPT-4O. شارك إيفانز سابقًا في تأليف دراسة توضح أن نسخة من GPT-4O المدربة على رمز غير آمن يمكن أن تبرزها لإظهار سلوكيات خبيثة.

في متابعة قادمة لتلك الدراسة ، وجد إيفانز والمؤلفين المشاركين أن GPT-4.1 تم ضبطه على رمز غير آمن يبدو أنه يعرض “سلوكيات ضارة جديدة” ، مثل محاولة خداع المستخدم في مشاركة كلمة المرور الخاصة بهم. أن نكون واضحين ، لم يتحمل عمل GPT-4.1 أو GPT-4O عند التدريب على يؤمن شفرة.

وقال أوينز لـ TechCrunch: “إننا نكتشف طرقًا غير متوقعة يمكن أن تصبح النماذج غير محددة”. “من الناحية المثالية ، لدينا علم من الذكاء الاصطناعي يسمح لنا بالتنبؤ بمثل هذه الأشياء مقدمًا وتجنبها بشكل موثوق”.

كشف اختبار منفصل لـ GPT-4.1 بواسطة Splxai ، وهو بدء تشغيل فريق AI Red ، عن ميول خبيثة مماثلة.

في حوالي 1000 حالة اختبار محاكاة ، كشفت Splxai عن أدلة على أن GPT-4.1 ينحرف عن الموضوع ويسمح بإساءة استخدام “عن قصد” في كثير من الأحيان من GPT-4O. إلقاء اللوم على تفضيل GPT-4.1 للحصول على تعليمات صريحة ، يفترض Splxai. GPT-4.1 لا يتعامل مع الاتجاهات الغامضة بشكل جيد ، وهي حقيقة يعترف بها Openai نفسها-والتي تفتح الباب للسلوكيات غير المقصودة.

وكتب Splxai في منشور مدونة: “هذه ميزة رائعة فيما يتعلق بجعل النموذج أكثر فائدة وموثوقية عند حل مهمة معينة ، ولكنها تأتي بسعر”. “[P]إن الإرشادات الصريحة حول ما ينبغي القيام به أمر واضح ومباشر تمامًا ، ولكن توفير تعليمات واضحة ودقيقة بما يكفي حول ما لا ينبغي القيام به هو قصة مختلفة ، لأن قائمة السلوكيات غير المرغوب فيها أكبر بكثير من قائمة السلوكيات المطلوبة. “

في دفاع Openai ، نشرت الشركة أدلة مطالبة تهدف إلى التخفيف من اختلال محتمل في GPT-4.1. لكن نتائج الاختبارات المستقلة بمثابة تذكير بأن النماذج الأحدث لم يتم تحسينها بالضرورة في جميع المجالات. في سياق مماثل ، نماذج التفكير الجديدة من Openai – أي أكثر من النماذج القديمة للشركة.

لقد تواصلنا مع Openai للتعليق.





المصدر


اكتشاف المزيد من اشراق اون لاين

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى

اكتشاف المزيد من اشراق اون لاين

اشترك الآن للاستمرار في القراءة والحصول على حق الوصول إلى الأرشيف الكامل.

Continue reading