قد تكون أداة وكيل OpenAI على وشك الإصدار

eshrag يناير 20, 2025

0 24 2 دقائق

قد تكون أداة وكيل OpenAI على وشك الإصدار

قد يكون OpenAI على وشك إطلاق أداة ذكاء اصطناعي يمكنها التحكم في جهاز الكمبيوتر الخاص بك وتنفيذ الإجراءات نيابةً عنك.

يدعي تيبور بلاهو، وهو مهندس برمجيات يتمتع بسمعة طيبة في تسريب منتجات الذكاء الاصطناعي القادمة بدقة، أنه اكتشف أدلة على أداة المشغل OpenAI التي يشاع عنها منذ فترة طويلة. سبق أن نشرت منشورات بما في ذلك بلومبرج تقارير عن Operator، والذي يُقال إنه نظام “وكيل” قادر على التعامل بشكل مستقل مع مهام مثل كتابة التعليمات البرمجية وحجز السفر.

وفقًا للمعلومات، تستهدف OpenAI شهر يناير باعتباره شهر إصدار المشغل. تضيف التعليمات البرمجية التي كشف عنها Blaho في نهاية هذا الأسبوع مصداقية لتلك التقارير.

حصل عميل ChatGPT الخاص بـ OpenAI لنظام التشغيل macOS على خيارات، مخفية في الوقت الحالي، لتحديد اختصارات “Toggle Operator” و”Force Quit Operator”، وفقًا لـ Blaho. وقال Blaho إن OpenAI أضافت مراجع إلى Operator على موقعها الإلكتروني – وإن كانت المراجع غير مرئية للعامة بعد.

يحتوي موقع OpenAI بالفعل على إشارات إلى المشغل/OpenAI CUA (وكيل استخدام الكمبيوتر) – “جدول بطاقة نظام المشغل”، و”جدول تقييم أبحاث المشغل”، و”جدول معدل رفض المشغل”

بما في ذلك المقارنة مع استخدام Claude 3.5 Sonnet للكمبيوتر، وGoogle Mariner، وما إلى ذلك.

(معاينة الجداول… pic.twitter.com/OOBgC3ddkU

— تيبور بلاهو (@btibor91) 20 يناير 2025

وفقًا لـ Blaho، يحتوي موقع OpenAI أيضًا على جداول غير عامة بعد تقارن أداء المشغل بأنظمة الذكاء الاصطناعي الأخرى التي تستخدم الكمبيوتر. قد تكون الجداول عناصر نائبة. ولكن إذا كانت الأرقام دقيقة، فإنها تشير إلى أن العميل ليس موثوقًا بنسبة 100%، اعتمادًا على المهمة.

يحتوي موقع OpenAI بالفعل على إشارات إلى المشغل/OpenAI CUA (وكيل استخدام الكمبيوتر) – “جدول بطاقة نظام المشغل”، و”جدول تقييم أبحاث المشغل”، و”جدول معدل رفض المشغل”

بما في ذلك المقارنة مع استخدام Claude 3.5 Sonnet للكمبيوتر، وGoogle Mariner، وما إلى ذلك.

(معاينة الجداول… pic.twitter.com/OOBgC3ddkU

— تيبور بلاهو (@btibor91) 20 يناير 2025

في OSWorld، وهو معيار يحاول محاكاة بيئة كمبيوتر حقيقية، حصل “OpenAI Computer Use Agent (CUA)” – ربما المشغل الذي يقوم بتشغيل نموذج الذكاء الاصطناعي – على 38.1%، متقدمًا على نموذج Anthropic للتحكم في الكمبيوتر ولكنه أقل بكثير من 72.4% من البشر نتيجة. يتفوق OpenAI CUA على الأداء البشري على WebVoyager، الذي يقيم قدرة الذكاء الاصطناعي على التنقل والتفاعل مع مواقع الويب. لكن النموذج لا يرقى إلى المستوى البشري في معيار آخر قائم على الويب، وهو WebArena، وفقًا للمعايير المسربة.

يواجه المشغل أيضًا صعوبة في أداء المهام التي يمكن أن يؤديها الإنسان بسهولة، إذا كان من المفترض تصديق التسريب. في الاختبار الذي كلف المشغل بالتسجيل مع موفر السحابة وإطلاق جهاز افتراضي، لم ينجح المشغل إلا بنسبة 60% من الحالات. تم تكليف المشغل بمهمة إنشاء محفظة بيتكوين، ولم ينجح إلا في 10% من الحالات.

يأتي دخول OpenAI الوشيك إلى مساحة وكيل الذكاء الاصطناعي في الوقت الذي يقوم فيه المنافسون، بما في ذلك Anthropic المذكورة أعلاه وGoogle وآخرون، بالتلاعب بالقطاع الناشئ. قد يكون عملاء الذكاء الاصطناعي محفوفين بالمخاطر والمضاربة، لكن عمالقة التكنولوجيا يروجون لهم بالفعل باعتبارهم الشيء الكبير التالي في الذكاء الاصطناعي. وفقًا لشركة التحليلات Markets and Markets، يمكن أن تبلغ قيمة سوق وكلاء الذكاء الاصطناعي 47.1 مليار دولار بحلول عام 2030.

الوكلاء اليوم بدائيون إلى حد ما. لكن بعض الخبراء أثاروا مخاوف بشأن سلامتهم، إذا تحسنت التكنولوجيا بسرعة.

يُظهر أحد المخططات المسربة أداء المشغل جيدًا في تقييمات السلامة المحددة، بما في ذلك الاختبارات التي تحاول جعل النظام يقوم “بأنشطة غير مشروعة” ويبحث عن “بيانات شخصية حساسة”. يقال إن اختبار السلامة هو من بين أسباب دورة التطوير الطويلة للمشغل. في منشور X الأخير، انتقد Wojciech Zaremba، المؤسس المشارك لـ OpenAI، شركة Anthropic لإطلاقها وكيلًا يدعي أنه يفتقر إلى وسائل تخفيف السلامة.

كتب زاريمبا: “لا أستطيع إلا أن أتخيل ردود الفعل السلبية إذا قامت OpenAI بإصدار إصدار مماثل”.

تجدر الإشارة إلى أن OpenAI قد تعرضت لانتقادات من قبل باحثي الذكاء الاصطناعي، بما في ذلك الموظفون السابقون، بدعوى عدم التركيز على أعمال السلامة لصالح إنتاج التكنولوجيا بسرعة.

المصدر