إن اختبار AGI جديد ومشهد تحديًا يجد معظم نماذج الذكاء الاصطناعى

eshrag مارس 25, 2025

0 17 2 دقائق

إن اختبار AGI جديد ومشهد تحديًا يجد معظم نماذج الذكاء الاصطناعى

أعلنت مؤسسة ARC Prize Foundation ، وهي مؤسسة غير ربحية تشارك في تأسيسها من قبل الباحث البارز في AI François Chollet ، في منشور مدونة يوم الاثنين أنها أنشأت اختبارًا جديدًا ومليءًا لقياس الذكاء العام لنماذج منظمة العفو الدولية.

حتى الآن ، قام الاختبار الجديد ، الذي يسمى ARC-AGI-2 ، بتجميع معظم النماذج.

نماذج “التفكير” مثل Openai’s O1-Pro و Deepseek R1 بين 1 ٪ و 1.3 ٪ على ARC-AGI-2 ، وفقًا لما ذكره المتصدرين لجائزة ARC. النماذج القوية غير الفاتنة بما في ذلك GPT-4.5 و Claude 3.7 Sonnet و Gemini 2.0 فلاش حوالي 1 ٪.

تتكون اختبارات ARC-AAGI من مشاكل تشبه اللغز حيث يتعين على الذكاء الاصطناعي تحديد الأنماط البصرية من مجموعة من المربعات ذات الألوان المختلفة ، وإنشاء شبكة “الإجابة” الصحيحة. تم تصميم المشكلات لإجبار الذكاء الاصطناعي على التكيف مع المشكلات الجديدة التي لم يرها من قبل.

كان لدى مؤسسة جائزة ARC أكثر من 400 شخص يأخذون ARC-AGI-2 لإنشاء خط أساس بشري. في المتوسط ، حصلت “لوحات” من هؤلاء الأشخاص على 60 ٪ من أسئلة الاختبار بشكل صحيح – أفضل بكثير من أي من درجات النماذج.

سؤال عينة من ARC-AGI-2 (الائتمان: جائزة ARC).

في منشور على X ، ادعى Chollet ARC-AGI-2 مقياس أفضل للذكاء الفعلي لنموذج الذكاء الاصطناعي من التكرار الأول للاختبار ، ARC-AGI-1. تهدف اختبارات مؤسسة ARC ARC على تقييم ما إذا كان نظام الذكاء الاصطناعى يمكنه الحصول على مهارات جديدة خارج البيانات التي تم تدريبها بكفاءة.

وقال Chollet إنه على عكس ARC-AGI-1 ، يمنع الاختبار الجديد نماذج الذكاء الاصطناعي من الاعتماد على “القوة الغاشمة”-قوة الحوسبة الواسعة-لإيجاد حلول. اعترفت Chollet سابقًا بأن هذا كان عيبًا رئيسيًا في ARC-AGI-1.

لمعالجة عيوب الاختبار الأول ، يقدم ARC-AGI-2 مقياسًا جديدًا: الكفاءة. كما أنه يتطلب نماذج لتفسير الأنماط أثناء الطيران بدلاً من الاعتماد على الحفظ.

وكتب جريج كامراادت المؤسس المشارك لمؤسسة ARC Bize Foundation: “لا يتم تعريف الذكاء فقط من خلال القدرة على حل المشكلات أو تحقيق درجات عالية”. “إن الكفاءة التي يتم بها الحصول على هذه القدرات ونشرها هي مكون حاسم ومحدد. السؤال الأساسي الذي يطرحه ليس فقط” ، هل يمكن الحصول على منظمة العفو الدولية [the] مهارة لحل المهمة؟ ولكن أيضًا ، “في أي كفاءة أو تكلفة؟”

لم يهزم ARC-AGI-1 لمدة خمس سنوات تقريبًا حتى ديسمبر 2024 ، عندما أصدرت Openai نموذج التفكير المتقدم ، O3 ، الذي تفوق على جميع نماذج الذكاء الاصطناعي الأخرى والأداء البشري المتطابق في التقييم. ومع ذلك ، كما لاحظنا في ذلك الوقت ، فإن أداء أداء O3 على ARC-AGI-1 جاء بسعر ضخم.

إن إصدار نموذج O3 O3-O3 (منخفض)-كان من أول من يصل إلى ارتفاعات جديدة على ARC-AGI-1 ، حيث سجل 75.7 ٪ في الاختبار ، بنسبة 4 ٪ على ARC-AGI-2 باستخدام قدرة الحوسبة بقيمة 200 دولار لكل مهمة.

مقارنة أداء نموذج AI Frontier على ARC-AGI-1 و ARC-AGI-2 (الائتمان: جائزة ARC).

يأتي وصول ARC-AGI-2 كما يدعو الكثيرون في صناعة التكنولوجيا إلى معايير جديدة غير مشبعة لقياس تقدم الذكاء الاصطناعي. أخبر Thomas Wolf ، المؤسس المشارك لـ Hugging Face ، TechCrunch مؤخرًا أن صناعة الذكاء الاصطناعى تفتقر إلى الاختبارات الكافية لقياس السمات الرئيسية لما يسمى الذكاء العام الاصطناعي ، بما في ذلك الإبداع.

إلى جانب المعيار الجديد ، أعلنت مؤسسة ARC ARC عن مسابقة ARC ARC 2025 الجديدة ، مما يشكل تحديًا للمطورين للوصول إلى 85 ٪ من الدقة في اختبار ARC-AGI-2 بينما ينفق فقط 0.42 دولار لكل مهمة.

المصدر