تعلن OpenAI عن نماذج o3 الجديدة
احتفظت OpenAI بأكبر إعلان لها في اليوم الأخير من حدث “shipmas” الذي يستمر لمدة 12 يومًا.
وفي يوم الجمعة، كشفت الشركة عن o3، خليفة نموذج o1 “الاستدلالي” الذي أطلقته في وقت سابق من العام. o3 هي عائلة نموذجية، لنكون أكثر دقة – كما كان الحال مع o1. هناك o3 وo3-mini، وهو نموذج أصغر مقطر تم ضبطه بدقة لمهام معينة.
تقدم شركة OpenAI ادعاءً رائعًا مفاده أن o3، على الأقل في ظروف معينة، يقترب من الذكاء الاصطناعي العام – مع وجود محاذير كبيرة. المزيد عن ذلك أدناه.
يعد o3، أحدث نموذج تفكير لدينا، إنجازًا كبيرًا، مع تحسين الدالة التدريجية وفقًا لأصعب معاييرنا. لقد بدأنا اختبارات السلامة والفريق الأحمر الآن. https://t.co/4XlK1iHxFK
– جريج بروكمان (@gdb) 20 ديسمبر 2024
لماذا نسمي النموذج الجديد o3 وليس o2؟ حسنًا، ربما تكون العلامات التجارية هي السبب. وفقًا للمعلومات، تخطت OpenAI o2 لتجنب حدوث تعارض محتمل مع مزود الاتصالات البريطاني O2. أكد الرئيس التنفيذي سام التمان هذا إلى حد ما خلال بث مباشر هذا الصباح. عالم غريب نعيش فيه، أليس كذلك؟
لم يتوفر أي من o3 أو o3-mini على نطاق واسع حتى الآن، ولكن يمكن للباحثين في مجال السلامة الاشتراك للحصول على معاينة لـ o3-mini بدءًا من اليوم. ستصل معاينة o3 في وقت ما بعد ذلك؛ ولم يحدد OpenAI متى. وقال ألتمان إن الخطة تهدف إلى إطلاق o3-mini في نهاية شهر يناير ومتابعة إطلاق o3.
وهذا يتعارض قليلا مع تصريحاته الأخيرة. في مقابلة أجريت معه هذا الأسبوع، قال ألتمان إنه قبل أن تطلق OpenAI نماذج تفكير جديدة، فإنه يفضل إطار اختبار فيدراليًا لتوجيه مراقبة وتخفيف مخاطر مثل هذه النماذج.
وهناك مخاطر. لقد وجد مختبرو سلامة الذكاء الاصطناعي أن قدرات التفكير المنطقي لدى o1 تجعله يحاول خداع المستخدمين البشريين بمعدل أعلى من النماذج التقليدية “غير المنطقية” – أو، في هذا الصدد، نماذج الذكاء الاصطناعي الرائدة من Meta، وAnthropic، وGoogle. من الممكن أن يحاول o3 الخداع بمعدل أعلى من سابقه؛ سنكتشف ذلك بمجرد أن يصدر شركاء الفريق الأحمر لـ OpenAI نتائج اختباراتهم.
في الحقيقة، تقول شركة OpenAI إنها تستخدم تقنية جديدة، “المحاذاة التداولية”، لمواءمة نماذج مثل o3 مع مبادئ السلامة الخاصة بها. (تمت محاذاة o1 بنفس الطريقة.) وقد قامت الشركة بتفصيل عملها في دراسة جديدة.
خطوات الاستدلال
على عكس معظم الذكاء الاصطناعي، فإن نماذج الاستدلال مثل o3 تتحقق من الحقائق بشكل فعال، مما يساعدها على تجنب بعض المخاطر التي عادة ما تتعثر النماذج.
تتطلب عملية التحقق من الحقائق بعض الكمون. يستغرق o3، مثل o1 قبله، وقتًا أطول قليلًا – عادةً من ثوانٍ إلى دقائق – للوصول إلى الحلول مقارنة بالنموذج غير المنطقي. الاتجاه الصعودي؟ تميل إلى أن تكون أكثر موثوقية في مجالات مثل الفيزياء والعلوم والرياضيات.
تم تدريب o3 من خلال التعلم المعزز على “التفكير” قبل الاستجابة عبر ما تصفه OpenAI بأنه “سلسلة فكرية خاصة”. يمكن للنموذج أن يفكر في مهمة ما ويخطط للمستقبل، وينفذ سلسلة من الإجراءات على مدى فترة طويلة تساعده على اكتشاف الحل.
أعلنا @OpenAI o1 منذ 3 أشهر فقط. اليوم أعلنا عن o3. لدينا كل الأسباب للاعتقاد بأن هذا المسار سيستمر. pic.twitter.com/Ia0b63RXIk
– نعوم براون (@ polynoamial) 20 ديسمبر 2024
من الناحية العملية، عند تلقي مطالبة ما، يتوقف o3 مؤقتًا قبل الرد، مع الأخذ في الاعتبار عددًا من المطالبات ذات الصلة و”شرح” أسبابها على طول الطريق. وبعد فترة من الوقت، يلخص النموذج ما يعتبره الاستجابة الأكثر دقة.
الجديد في o3 مقابل o1 هو القدرة على “ضبط” وقت التفكير. يمكن ضبط النماذج على حوسبة منخفضة أو متوسطة أو عالية (أي وقت التفكير). كلما زادت الحوسبة، كان أداء o3 أفضل في المهمة.
بغض النظر عن مقدار الحوسبة المتاحة لهم، فإن نماذج الاستدلال مثل o3 ليست خالية من العيوب. في حين أن عنصر الاستدلال يمكن أن يقلل من الهلوسة والأخطاء، فإنه لا يزيلها. يتعثر o1 في ألعاب تيك تاك تو، على سبيل المثال.
المعايير و AGI
كان أحد الأسئلة الكبيرة التي سبقت اليوم هو ما إذا كانت شركة OpenAI قد تدعي أن أحدث نماذجها تقترب من الذكاء الاصطناعي العام.
ويشير مصطلح AGI، وهو اختصار لـ “الذكاء العام الاصطناعي”، على نطاق واسع إلى الذكاء الاصطناعي الذي يمكنه أداء أي مهمة يستطيع الإنسان القيام بها. لدى OpenAI تعريفها الخاص: “الأنظمة عالية الاستقلالية التي تتفوق على البشر في معظم الأعمال ذات القيمة الاقتصادية”.
إن تحقيق الذكاء الاصطناعي العام سيكون بمثابة إعلان جريء. ويحمل وزنًا تعاقديًا لـ OpenAI أيضًا. وفقًا لشروط صفقتها مع الشريك والمستثمر المقرب Microsoft، بمجرد وصول OpenAI إلى AGI، لم تعد ملزمة بمنح Microsoft إمكانية الوصول إلى تقنياتها الأكثر تقدمًا (تلك التي تلبي تعريف OpenAI’s AGI).
من خلال اتباع معيار واحد، OpenAI يكون يقترب ببطء من AGI. في ARC-AGI، وهو اختبار مصمم لتقييم ما إذا كان نظام الذكاء الاصطناعي يمكنه اكتساب مهارات جديدة بكفاءة خارج البيانات التي تم تدريبه عليها، حقق o3 درجة 87.5% في إعداد الحوسبة العالية. في أسوأ حالاته (في إعداد الحوسبة المنخفضة)، ضاعف النموذج أداء o1 ثلاث مرات.
من المؤكد أن إعداد الحوسبة العالية كان مكلفًا للغاية – حيث يصل إلى آلاف الدولارات لكل تحدٍ، وفقًا لفرانسوا شوليه، المؤسس المشارك لـ ARC-AGI.
أعلنت OpenAI اليوم عن o3، نموذج الاستدلال من الجيل التالي. لقد عملنا مع OpenAI لاختباره على ARC-AGI، ونعتقد أنه يمثل تقدمًا كبيرًا في جعل الذكاء الاصطناعي يتكيف مع المهام الجديدة.
لقد حصل على 75.7% في التقييم شبه الخاص في وضع الحوسبة المنخفضة (مقابل 20 دولارًا لكل مهمة… pic.twitter.com/ESQ9CNVCEA
– فرانسوا شوليت (@fcholet) 20 ديسمبر 2024
وأشار شوليه أيضًا إلى أن o3 يفشل في “المهام السهلة جدًا” في ARC-AGI، مشيرًا – في رأيه – إلى أن النموذج يُظهر “اختلافات جوهرية” عن الذكاء البشري. وقد أشار سابقًا إلى قيود التقييم، وحذر من استخدامه كمقياس للذكاء الاصطناعي الفائق.
“[E]تشير نقاط البيانات المبكرة إلى أن المستقبل [successor to the ARC-AGI] سيظل المعيار القياسي يشكل تحديًا كبيرًا لـ o3، مما قد يؤدي إلى تقليل درجاته إلى أقل من 30% حتى في الحوسبة العالية (في حين سيظل الإنسان الذكي قادرًا على تسجيل أكثر من 95% بدون تدريب)”. “ستعرف أن الذكاء الاصطناعي العام موجود هنا عندما تصبح ممارسة إنشاء المهام التي تكون سهلة بالنسبة للبشر العاديين ولكنها صعبة بالنسبة للذكاء الاصطناعي مستحيلة بكل بساطة.”
بالمناسبة، تقول OpenAI إنها ستتعاون مع المؤسسة التي تقف وراء ARC-AGI لمساعدتها في بناء الجيل التالي من معيار الذكاء الاصطناعي الخاص بها، ARC-AGI 2.
وفي اختبارات أخرى، تفوق o3 على منافسيه.
يتفوق النموذج على o1 بنسبة 22.8 نقطة مئوية في SWE-Bench Verified، وهو معيار يركز على مهام البرمجة، ويحقق تصنيف Codeforces – وهو مقياس آخر لمهارات البرمجة – يبلغ 2727. (تقييم 2400 يضع المهندس في النسبة المئوية 99.2. ) حصل o3 على 96.7% في الاختبار الأمريكي للرياضيات الدعوية لعام 2024، ولم يبق له سوى سؤال واحد، وحقق 87.7% في GPQA Diamond، وهي مجموعة من أسئلة الأحياء والفيزياء والكيمياء على مستوى الدراسات العليا. أخيرًا، سجل o3 رقمًا قياسيًا جديدًا في اختبار EpochAI’s Frontier Math، حيث حل 25.2% من المشكلات؛ ولا يوجد نموذج آخر يتجاوز 2%.
لقد قمنا بتدريب o3-mini: كلاهما أكثر قدرة من o1-mini، وأسرع بحوالي 4 مرات من البداية إلى النهاية عند حساب الرموز المميزة للاستدلال
مع @رين_هونغيو @شينغجيا_زاو & آحرون pic.twitter.com/3Cujxy6yCU
– كيفن لو (@_kevinlu) 20 ديسمبر 2024
وبطبيعة الحال، يجب أن تؤخذ هذه الادعاءات مع قليل من الملح. إنهم من التقييمات الداخلية لـ OpenAI. سنحتاج إلى الانتظار لنرى كيف يمكن للنموذج أن يصمد أمام قياس الأداء من العملاء والمؤسسات الخارجية في المستقبل.
الاتجاه
في أعقاب إصدار أول سلسلة من نماذج الاستدلال الخاصة بـ OpenAI، حدث انفجار في نماذج الاستدلال من شركات الذكاء الاصطناعي المنافسة – بما في ذلك Google. في أوائل نوفمبر، أطلقت شركة DeepSeek، وهي شركة أبحاث تعمل في مجال الذكاء الاصطناعي ويمولها متداولون كميون، معاينة لنموذجها المنطقي الأول، DeepSeek-R1. وفي الشهر نفسه، كشف فريق كوين التابع لشركة علي بابا عما زعم أنه أول منافس “مفتوح” لـ o1 (بمعنى أنه يمكن تنزيله وضبطه وتشغيله محليا).
ما الذي فتح الباب على مصراعيه لنموذج الاستدلال؟ حسنًا، أولاً، البحث عن أساليب جديدة لتحسين الذكاء الاصطناعي التوليدي. وكما أفاد موقع TechCrunch مؤخراً، فإن تقنيات “القوة الغاشمة” لتوسيع نطاق النماذج لم تعد تحقق التحسينات التي كانت تحققها من قبل.
ليس الجميع مقتنعين بأن نماذج الاستدلال هي أفضل طريق للمضي قدمًا. فهي تميل إلى أن تكون باهظة الثمن، وذلك بفضل الكمية الكبيرة من الطاقة الحاسوبية اللازمة لتشغيلها. وعلى الرغم من أنها حققت أداءً جيدًا في المعايير حتى الآن، فإنه ليس من الواضح ما إذا كانت نماذج الاستدلال يمكنها الحفاظ على معدل التقدم هذا.
ومن المثير للاهتمام أن إصدار o3 يأتي مع مغادرة أحد أكثر علماء OpenAI إنجازًا. أعلن أليك رادفورد، المؤلف الرئيسي للورقة الأكاديمية التي أطلقت “سلسلة GPT” من OpenAI لنماذج الذكاء الاصطناعي التوليدية (أي GPT-3، وGPT-4، وما إلى ذلك)، هذا الأسبوع أنه سيغادر لمتابعة بحث مستقل.
لدى TechCrunch رسالة إخبارية تركز على الذكاء الاصطناعي! قم بالتسجيل هنا للحصول عليه في بريدك الوارد كل يوم أربعاء.
اكتشاف المزيد من اشراق اون لاين
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.