تقنية

هل كذب XAI حول معايير Grok 3؟


المناقشات حول معايير الذكاء الاصطناعى – وكيف يتم الإبلاغ عنها من قبل AI Labs – تتسرب إلى الرأي العام.

هذا الأسبوع ، اتهم موظف Openai شركة AI Elon Musk ، XAI ، بنشر النتائج المرتبطة بأحدث طراز AI ، Grok 3. أحد المؤسسين المشاركين في Xai ، Igor Babushkin ، أصر على أن الشركة كانت في اليمين.

الحقيقة تقع في مكان ما بينهما.

في منشور على مدونة XAI ، نشرت الشركة رسمًا بيانيًا يوضح أداء Grok 3 في AIME 2025 ، وهي مجموعة من أسئلة الرياضيات الصعبة من امتحان الرياضيات الدعائي حديث. شكك بعض الخبراء في صحة AIME كمعيار لمنظمة العفو الدولية. ومع ذلك ، يتم استخدام الإصدارات AIME 2025 أو الأقدم من الاختبار بشكل شائع للتحقيق في قدرة الرياضيات في النموذج.

أظهر الرسم البياني لـ Xai نوعين من Grok 3 و Grok 3 Beta Beta و Grok 3 Mini Reasoning ، متغلبًا على أفضل الأداء المتاح في Openai ، O3-Mini-High ، في Aime 2025. لم تتضمن درجة O3-Mini-High’s Aime 2025 في “Cons@64”.

ما هو سلبيات@64 ، قد تسأل؟ حسنًا ، إنه قصير بالنسبة لـ “الإجماع@64” ، ويعطي بشكل أساسي نموذج 64 يحاول الإجابة على كل مشكلة في معيار ويأخذ الإجابات التي تم إنشاؤها بشكل متكرر كإجابات نهائية. كما يمكنك أن تتخيل ، تميل Cons@64 إلى زيادة الدرجات القياسية للموديلات قليلاً ، وحذفها من الرسم البياني قد تجعلها تبدو كما لو أن أحد الطرازات يتجاوز نموذجًا آخر عندما يكون هذا هو الحال في الواقع.

Grok 3 Reasying Beta و Grok 3 Mini Reasoning Scores for Aime 2025 في “@1”-مما يعني أن النتيجة الأولى التي حصلت عليها النماذج في المعيار-تقل عن درجة O3-Mini عالية. يتتبع Grok 3 Beansing Beta أيضًا بشكل كبير خلف طراز O1 الخاص بـ Openai الذي تم تعيينه على الحوسبة “المتوسطة”. ومع ذلك ، فإن Xai تعلن Grok 3 باعتباره “أذكى الذكاء الاصطناعي في العالم”.

جادل Babushkin على X أن Openai قد نشرت مخططات قياسية مضللة بالمثل في الماضي – وإن كانت مخططات تقارن أداء نماذجها الخاصة. وضع حفلة أكثر حيادية في النقاش رسمًا بيانيًا “دقة” أكثر توضح أداء كل طراز تقريبًا في Cons@64:

ولكن كما أشار باحث AI ناثان لامبرت في منشور ، ربما يظل المقياس الأكثر أهمية لغزا: التكلفة الحسابية (والنقدية) التي استغرقتها لكل نموذج لتحقيق أفضل درجة. هذا يوضح فقط لم يعلم معظم معايير الذكاء الاصطناعي قيود النماذج – ونقاط قوتها.





المصدر


اكتشاف المزيد من اشراق اون لاين

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى

اكتشاف المزيد من اشراق اون لاين

اشترك الآن للاستمرار في القراءة والحصول على حق الوصول إلى الأرشيف الكامل.

Continue reading