تطلق Openai O3-Mini ، أحدث نموذج لها “التفكير”

eshrag فبراير 1, 2025

0 33 4 دقائق

تطلق Openai O3-Mini ، أحدث نموذج لها “التفكير”

أطلقت Openai يوم الجمعة نموذجًا جديدًا لـ AI “المنطقي” ، O3-Mini ، أحدث في عائلة عائلة التفكير في الشركة.

قام Openai أولاً بمعاينة النموذج في ديسمبر إلى جانب نظام أكثر قدرة يسمى O3 ، لكن الإطلاق يأتي في لحظة محورية للشركة ، التي يبدو أن طموحاتها – والتحديات – تنمو يومًا بعد يوم.

تحارب Openai التصور بأنها تتنازل عن أرض الذكاء الاصطناعى إلى الشركات الصينية مثل Deepseek ، والتي تزعم Openai ربما سرقت IP الخاصة بها. لقد كانت تحاول تشكيل علاقتها مع واشنطن لأنها تتابع في وقت واحد مشروع مركز بيانات طموح ، وبما أنه يضع الأساس لواحدة من أكبر جولات التمويل في التاريخ.

الذي يقودنا إلى O3-MINI. يعرض Openai نموذجه الجديد باعتباره “قويًا” و “بأسعار معقولة”.

“علامات إطلاق اليوم […] وقال متحدث باسم Openai لـ TechCrunch:

التفكير الأكثر كفاءة

على عكس معظم نماذج اللغة الكبيرة ، فإن نماذج التفكير مثل O3-Mini تحقق تمامًا من حقائق الحق في تقديم النتائج. هذا يساعدهم على تجنب بعض المزالق التي عادة ما ترتفع النماذج. تستغرق نماذج التفكير هذه وقتًا أطول قليلاً للوصول إلى الحلول ، لكن المفاضلة هي أنها تميل إلى أن تكون أكثر موثوقية-وإن لم تكن مثالية-في مجالات مثل الفيزياء.

يتم ضبط O3-MINI لمشاكل STEM ، وتحديداً للبرمجة والرياضيات والعلوم. يدعي Openai أن النموذج على قدم المساواة مع عائلة O1 و O1 و O1-Mini ، من حيث القدرات ، ولكنه يعمل بشكل أسرع ويكلف أقل.

ادعت الشركة أن المختبرين الخارجيين يفضلون إجابات O3-Mini على تلك الموجودة في O1-Mini أكثر من نصف الوقت. يبدو أن O3-MINI قد ارتكبت أيضًا 39 ٪ من “الأخطاء الرئيسية” على “أسئلة في العالم الحقيقي” في اختبارات A/B مقابل O1-Mini ، وأنتجت إجابات “أكثر وضوحًا” مع تقديم إجابات أسرع بنسبة 24 ٪.

ستكون O3-Mini متاحة لجميع المستخدمين عبر ChatGPT بدءًا من يوم الجمعة ، لكن المستخدمين الذين يدفعون مقابل Openai’s ChatGPT Plus وسيحصل خطط الفريق على حد أعلى قدره 150 استعلامات يوميًا. سيحصل مشتركي ChatGpt Pro على وصول غير محدود ، وسيأتي O3-Mini إلى عملاء ChatGpt Enterprise و ChatGPT EDU في الأسبوع. (لا توجد كلمة في حكومة chatgpt حتى الآن).

يمكن للمستخدمين الذين لديهم خطط متميزة تحديد O3-MINI باستخدام القائمة المنسدلة ChatGPT. يمكن للمستخدمين المجانيين النقر فوق أو النقر فوق الزر “reason” الجديد في شريط الدردشة ، أو الحصول على إجابة “reglerate” chatgpt.

ابتداءً من يوم الجمعة ، ستكون O3-Mini متاحة أيضًا عبر API من Openai لتحديد المطورين ، ولكنها في البداية لن تحصل على دعم لتحليل الصور. يمكن لـ Devs اختيار مستوى “جهد التفكير” (منخفض أو متوسط أو مرتفع) للحصول على O3-MINI “للتفكير بجد” بناءً على احتياجاتهم من استخدامها واستخدامها.

يبلغ سعر O3-MINI 0.55 دولار لكل مليون رموز مدخلات مخزنة مؤقتًا و 4.40 دولار لكل مليون رموز إخراج ، حيث تعادل مليون رمز ما يقرب من 750،000 كلمة. هذا أرخص بنسبة 63 ٪ من O1-Mini ، وتنافسية مع أسعار نموذج التفكير في Deepseek R1. يتقاضى Deepseek 0.14 دولارًا لكل مليون رموز إدخال مخزنة مؤقتًا و 2.19 دولارًا لكل مليون رموز إخراج للوصول إلى R1 من خلال واجهة برمجة التطبيقات الخاصة بها.

في ChatGPT ، تم تعيين O3-MINI على جهد التفكير المتوسط ، والذي يقول Openai يقول “مفاضلة متوازنة بين السرعة والدقة”. سيكون لدى المستخدمين المدفوعين خيار اختيار “O3-Mini-High” في منتقي النماذج ، والذي سيقدم ما يطلق عليه Openai “ذكاء أعلى” مقابل ردود أبطأ.

بغض النظر عن إصدار من مستخدمي O3-Mini ChatGpt ، سيعمل النموذج مع Search للعثور على إجابات محدثة مع روابط لمصادر الويب ذات الصلة. يحذر Openai من أن الوظيفة هي “نموذج أولي” لأنها تعمل على دمج البحث عبر نماذج التفكير.

“بينما تظل O1 نموذج التفكير العام الأوسع لدينا ، يوفر O3-MINI بديلاً متخصصًا للنطاقات الفنية التي تتطلب الدقة والسرعة” ، كتب Openai في منشور مدونة يوم الجمعة. “يمثل إصدار O3-Mini خطوة أخرى في مهمة Openai لدفع حدود الذكاء الفعال من حيث التكلفة.”

تحذيرات كثيرة

يعد O3-Mini أقوى نموذج Openai حتى الآن ، كما أنه لا يقفز نموذج التفكير R1’s Deepseek في كل معيار.

يتفوق O3-Mini على R1 على AIME 2024 ، وهو اختبار يقيس مدى فهم النماذج والاستجابة للتعليمات المعقدة-ولكن فقط مع جهد التفكير العالي. كما أنه يتفوق على R1 على اختبار Swe-bench الذي يركز على البرمجة (بواسطة 0.1 Point) ، ولكن مرة أخرى ، فقط مع جهد التفكير العالي. في جهد التفكير المنخفض ، يتخلف O3-Mini R1 على GPQA Diamond ، والذي يختبر النماذج مع الفيزياء على مستوى الدكتوراه والبيولوجيا والكيمياء.

لكي نكون منصفين ، يجيب O3-MINI على العديد من الاستفسارات بتكلفة منخفضة التنافسية. في المنشور ، يقارن Openai أدائها بعائلة O1:

“من خلال جهد التفكير المنخفض ، يحقق O3-MINI أداءً مماثلًا مع O1-MINI ، بينما يحقق O3-MINI أداءً قابلاً للمقارنة مع O1” ، يكتب Openai. “تطابق O3-Mini مع جهد التفكير المتوسط أداء O1 في الرياضيات والترميز والعلوم مع تقديم ردود أسرع. وفي الوقت نفسه ، مع جهد التفكير العالي ، يتفوق O3-Mini على كل من O1-Mini و O1. “

تجدر الإشارة إلى أن ميزة أداء O3-Mini على O1 ضئيلة في بعض المناطق. في AIME 2024 ، يفوز O3-Mini O1 بمقدار 0.3 نقطة مئوية فقط عند تعيينه على جهد التفكير العالي. وعلى GPQA Diamond ، لا تتجاوز O3-Mini درجة O1 حتى في جهد التفكير العالي.

يؤكد Openai أن O3-MINI “آمن” أو أكثر أمانًا من عائلة O1 ، بفضل جهود التقاط الحمراء ومنهجية “التوافق التداولي” ، والتي تجعل النماذج “تفكر” في سياسة سلامة Openai أثناء الاستجابة لها استفسارات. وفقًا للشركة ، فإن O3-MINI “يتجاوز بشكل كبير” أحد النماذج الرائدة في Openai ، GPT-4O ، حول “تقييمات السلامة والكسر الصعبة”.

لدى TechCrunch رسالة إخبارية تركز على الذكاء الاصطناعي! اشترك هنا للحصول عليه في صندوق الوارد الخاص بك كل يوم أربعاء.

المصدر