الناس يقمعون الذكاء الاصطناعي من خلال جعلها تجعل الكرات ترتد في الأشكال الدوارة
تستمر قائمة المعايير غير الرسمية والغريبة في النمو.
على مدار الأيام القليلة الماضية ، أصبح بعضهم في مجتمع الذكاء الاصطناعى على X مهووسًا باختبار لكيفية اختلاف نماذج الذكاء الاصطناعي ، وخاصة ما يسمى نماذج التفكير ، بمطالبات مثل هذا: . اجعل الشكل يدور ببطء ، وتأكد من أن الكرة تبقى داخل الشكل. “
تدير بعض النماذج بشكل أفضل على معيار “الكرة في الشكل الدوار” من غيرها. وفقًا لمستخدم واحد على X ، اجتاحت R1 R1 من AI Labs من AI Labseek الأرضية مع وضع O1 Pro Openai ، والذي يكلف 200 دولار شهريًا كجزء من خطة ChatGpt Pro Openai.
👀 Deepseek R1 (يمين) سحق O1-Pro (يسار) 👀
موجه: “اكتب نصًا بيثون للكرة الصفراء المرتدة داخل مربع ، تأكد من التعامل مع اكتشاف الاصطدام بشكل صحيح. اجعل المربع يدور ببطء. تنفيذها في بيثون. تأكد من بقاء الكرة داخل المربع ” pic.twitter.com/3sad9efpez
– إيفان فيورافانتي ᯅ (ivanfioravanti) 22 يناير 2025
لكل ملصق X آخر ، أساءت كلود 3.5 Sonnet’s Hothropic’s Claude و Google Gemini 1.5 Pro في الفيزياء ، مما أدى إلى هروب الكرة. ذكر المستخدمون الآخرون أن Gemini 2.0 Flash Thinking التجريبي ، وحتى GPT-4O الأقدم من Openai ، قد أدى إلى التقييم دفعة واحدة.
تم اختبار 9 نماذج منظمة العفو الدولية على مهمة محاكاة الفيزياء: تدوير المثلث + كرة كذاب. نتائج:
🥇 Deepseek-R1
🥈 السونار ضخمة
🥉 GPT-4Oأسوأ؟ Openai O1: أسيء فهم المهمة تمامًا 😂
الفيديو أدناه ↓ الصف الأول = نماذج التفكير ، REST = النماذج الأساسية. pic.twitter.com/eoyrhvnazr
– aadhithya d (@aadhithya_d2003) 22 يناير 2025
ولكن ما الذي يثبت أن الذكاء الاصطناعى يمكنه أو لا يمكنه ترميز شكل دوار يحتوي على الكرة؟
حسنًا ، يمثل محاكاة الكرة المرتدة تحديًا للبرمجة الكلاسيكية. تتضمن عمليات المحاكاة الدقيقة خوارزميات اكتشاف التصادم ، والتي تحاول تحديد وقت تصادم كائنين (مثل الكرة وجانب الشكل). يمكن أن تؤثر الخوارزميات المكتوبة بشكل سيئ على أداء المحاكاة أو تؤدي إلى أخطاء فيزياء واضحة.
يقول X User N8Programs ، الباحث في الإقامة في AI Startup Nous Research ، إن الأمر استغرق منه حوالي ساعتين لبرمجة كرة كذبة في سحر دوار من الصفر. “يتعين على المرء تتبع أنظمة إحداثيات متعددة ، وكيفية القيام بالتصادمات في كل نظام ، وتصميم الكود من البداية ليكون قويًا” ، أوضح N8Programs في منشور.
ولكن في حين أن كرات الكرات والأشكال الدوارة هي اختبار معقول لمهارات البرمجة ، إلا أنها ليست معيارًا تجريبيًا للغاية من الذكاء الاصطناعي. حتى الاختلافات الطفيفة في المطالبة يمكن أن تسفر عن نتائج مختلفة. لهذا السبب يتمتع بعض المستخدمين في تقرير X بمزيد من الحظ مع O1 ، بينما يقول آخرون أن R1 تقصر.
إذا كان أي شيء ، فإن الاختبارات الفيروسية مثل هذه النقطة هي المشكلة المستعصية المتمثلة في إنشاء أنظمة مفيدة من القياس لنماذج الذكاء الاصطناعى. غالبًا ما يكون من الصعب معرفة ما الذي يميز نموذجًا عن الآخر ، خارج المعايير الباطنية غير ذات صلة بمعظم الناس.
تجري العديد من الجهود لبناء اختبارات أفضل ، مثل اختبار ARC-AAGI والامتحان الأخير للبشرية. سنرى كيف تلك الأجرة – وفي الوقت نفسه شاهد صور الكرات من الكرات في الأشكال الدوارة.
اكتشاف المزيد من اشراق اون لاين
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.