تقنية

قام أحد المدارس الثانوية ببناء موقع ويب يتيح لك تحدي نماذج الذكاء الاصطناعى لبناء Minecraft


كما تثبت تقنيات القياس التقليدية من الذكاء الاصطناعي غير كافٍ ، يتحول بناة الذكاء الاصطناعى إلى طرق أكثر إبداعًا لتقييم قدرات نماذج الذكاء الاصطناعى. بالنسبة لمجموعة واحدة من المطورين ، هذه هي لعبة Minecraft ، لعبة بناء صندوق الرمل المملوكة لشركة Microsoft.

تم تطوير موقع Minecraft Benchmark (أو MC-BENCE) بشكل تعاوني لحفر نماذج الذكاء الاصطناعي ضد بعضها البعض في تحديات وجها لوجه للرد على المطالبات مع إبداعات Minecraft. يمكن للمستخدمين التصويت على النموذج الذي قام بعمل أفضل ، وفقط بعد التصويت ، يمكنهم أن يروا أي من الذكاء الاصطناعى الذي جعل كل من Minecraft.

ائتمانات الصورة:Minecraft معيار (يفتح في نافذة جديدة)

بالنسبة إلى Adi Singh ، طالب الصف الثاني عشر الذي بدأ MC-Bench ، فإن قيمة Minecraft ليست اللعبة نفسها ، ولكن الألفة التي يتمتع بها الناس معها-بعد كل شيء ، إنها لعبة الفيديو الأكثر مبيعًا في كل العصور. حتى بالنسبة للأشخاص الذين لم يلعبوا اللعبة ، لا يزال من الممكن تقييم تمثيل الأناناس بشكل أفضل.

“Minecraft يسمح للناس برؤية التقدم [of AI development] وقال سينغ: “إن الناس معتادون على Minecraft ، الذين يستخدمون في الشكل”.

يسرد MC-Bench حاليًا ثمانية أشخاص كمساهمين متطوعين. قامت الأنثروبور ، Google ، Openai ، Alibaba بدعم استخدام المشروع لمنتجاتها لتشغيل مطالبات القياس ، لكل موقع على موقع MC-Bench ، لكن الشركات ليست تابعة بطريقة أخرى.

“حاليًا نقوم فقط ببناء بسيطة للتفكير في المدى الذي وصلنا إليه من عصر GPT-3 ، ولكن [we] قال سينغ: “يمكن أن نرى أنفسنا متوسطة إلى هذه الخطط ذات الشكل الطويل والمهام الموجهة نحو الأهداف. قد تكون الألعاب فقط وسيلة لاختبار التفكير الأكثر أمانًا من الحياة الحقيقية وأكثر قابلية للتحكم في أغراض الاختبار ، مما يجعلها أكثر مثالية في عيني”.

تم استخدام ألعاب أخرى مثل Pokémon Red و Street Fighter و Pictionary كمعايير تجريبية لمنظمة العفو الدولية ، ويرجع ذلك جزئيًا إلى أن فن القياس من الذكاء الاصطناعي أمر صعب للغاية.

غالبًا ما يختبر الباحثون نماذج الذكاء الاصطناعي على تقييمات موحدة ، ولكن العديد من هذه الاختبارات تمنح الذكاء الاصطناعي ميزة المجال المنزلي. نظرًا للطريقة التي يتم بها تدريبهم ، فإن النماذج موهوبة بشكل طبيعي في أنواع معينة من حل المشكلات ، وخاصة حل المشكلات التي تتطلب تحفيزًا عن ظهر قلب أو استقراء أساسي.

ببساطة ، من الصعب تجنب ما يعنيه أن GPT-4 من Openai يمكن أن يسجل في المئوية 88 على LSAT ، ولكن لا يمكن تمييز عدد Rs في كلمة “الفراولة”. حقق كلود 3.7 Sonnet من الأنثروبور دقة بنسبة 62.3 ٪ على معيار هندسة برمجيات موحدة ، لكن الأمر أسوأ في لعب بوكيمون من معظم الأطفال الذين يبلغون من العمر خمس سنوات.

MC-BENCES هي من الناحية الفنية معيارًا للبرمجة ، حيث يُطلب من النماذج كتابة التعليمات البرمجية لإنشاء البناء المدعوم ، مثل “Frosty the Snowman” أو “كوخ شاطئ استوائي ساحر على شاطئ رملي بدائي”.

ولكن من الأسهل بالنسبة لمعظم مستخدمي MC-Bench تقييم ما إذا كان رجل الثلج يبدو أفضل من الحفر في التعليمات البرمجية ، مما يمنح المشروع نداء أوسع-وبالتالي القدرة على جمع المزيد من البيانات حول النماذج التي تسجل باستمرار بشكل أفضل.

ما إذا كانت هذه الدرجات ترقى إلى حد كبير في طريق فائدة الذكاء الاصطناعي للنقاش ، بالطبع. يؤكد سينغ أنها إشارة قوية.

وقال سينغ: “تعكس اللوحة المتصدرين الحالية عن كثب تجربتي الخاصة في استخدام هذه النماذج ، والتي لا تشبه الكثير من معايير النص النقي”. “ربما [MC-Bench] يمكن أن يكون مفيدًا للشركات لمعرفة ما إذا كانت تتجه في الاتجاه الصحيح. “



المصدر


اكتشاف المزيد من اشراق اون لاين

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى

اكتشاف المزيد من اشراق اون لاين

اشترك الآن للاستمرار في القراءة والحصول على حق الوصول إلى الأرشيف الكامل.

Continue reading