يقوم Openai بترقية نماذج الذكاء الاصطناعي للنسخ وتوليد الصوت

تقوم Openai بتقديم نماذج جديدة للنسخ وتوليد الصوت إلى API التي تدعي الشركة أن تتحسن في إصداراتها السابقة.
بالنسبة لـ Openai ، تتناسب النماذج مع رؤيتها “Agentic” الأوسع: بناء أنظمة آلية يمكنها إنجاز المهام بشكل مستقل نيابة عن المستخدمين. قد يكون تعريف “الوكيل” في نزاع ، لكن رئيس منتج Openai Olivier Godement وصف تفسيرًا واحدًا بأنه chatbot يمكنه التحدث مع عملاء الشركة.
“سنرى المزيد والمزيد من الوكلاء يطفوون في الأشهر المقبلة” ، أخبر Godement TechCrunch خلال إحاطة. “وبالتالي فإن الموضوع العام يساعد العملاء والمطورين على الاستفادة من الوكلاء المفيدين والمتاحين والدقيق.”
يدعي Openai أن نموذج النص إلى الكلام الجديد ، “GPT-4O-Mini-TTS” ، لا يوفر خطابًا أكثر دقة وواقعية ولكنه أيضًا “أكثر قابلية” من نماذج التزامات الكلام السابقة. يمكن للمطورين إرشاد GPT-4O-Mini-TTS حول كيفية قول الأشياء باللغة الطبيعية-على سبيل المثال ، “تحدث مثل عالم مجنون” أو “استخدم صوتًا هادئًا ، مثل معلم الذهن”.
إليكم صوت “على غرار الجريمة الحقيقي”:
وهنا عينة من صوت “احترافي” أنثى:
أخبر جيف هاريس ، وهو عضو في موظفي المنتج في Openai ، TechCrunch أن الهدف هو السماح للمطورين بتكييف كل من “تجربة” الصوت و “السياق”.
وقال هاريس: “في سياقات مختلفة ، لا تريد فقط صوتًا مسطحًا ورتابة”. “إذا كنت في تجربة دعم العملاء وتريد أن يكون الصوت اعتذاريًا لأنه ارتكب خطأً ، فيمكنك في الواقع أن يكون لديك صوت يتمتع به هذه المشاعر … إيماننا الكبير ، هنا ، هو أن المطورين والمستخدمين يريدون التحكم حقًا ، ليس فقط ما يتم التحدث به ، ولكن كيف يتم التحدث بالأشياء.”
أما بالنسبة لنماذج Openai الجديدة للكلام إلى النص ، فإن “GPT-4O Transcribe” و “GPT-4O-Mini-Ranscribe” ، يحلون بفعالية محل نموذج النسخ الهمس الطويل في الشركة. تدرب على “مجموعات بيانات صوتية عالية الجودة عالية الجودة” ، يمكن للموديلات الجديدة التقاط خطاب معلم ومتنوع بشكل أفضل ، ومطالبات Openai ، حتى في البيئات الفوضوية.
وأضاف هاريس أنهم أقل عرضة للهلوسة. كان الهمس يميل إلى تصنيع الكلمات – وحتى الممرات الكاملة – في المحادثات ، وإدخال كل شيء من التعليقات العنصرية إلى العلاجات الطبية المتخيلة إلى نصوص.
“[T]وقال هاريس: “تم تحسين نماذج Hese إلى حد كبير مقابل هذا الجبهة. التأكد من أن النماذج دقيقة أمر ضروري تمامًا للحصول على تجربة صوتية موثوقة ودقيقة [in this context] يعني أن النماذج تسمع الكلمات بدقة [and] لا تملأ التفاصيل التي لم يسمعوا بها. “
ومع ذلك ، قد يختلف عدد الأميال الخاصة بك اعتمادًا على اللغة التي يتم نسخها.
وفقًا للمعايير الداخلية لـ Openai ، فإن GPT-4O Transcripts ، وهو أكثر دقة بين نموذجين للنسخ ، له “معدل خطأ في الكلمات” يقترب من 30 ٪ (من أصل 120 ٪) لللغات المؤديرة والدرافيديان مثل التاميل ، التيلجو ، المالايالام ، الكانادا. وهذا يعني أن ثلاث كلمات من كل 10 كلمات من النموذج ستختلف عن النسخ البشري في تلك اللغات.
في استراحة من التقليد ، لا يخطط Openai لإتاحة نماذج النسخ الجديدة علانية. أصدرت الشركة تاريخيا إصدارات جديدة من Whisper للاستخدام التجاري بموجب ترخيص معهد ماساتشوستس للتكنولوجيا.
قال هاريس إن GPT-4O Transcribe و GPT-4O-Mini-Ranscribe “أكبر بكثير من الهمس” وبالتالي ليسوا مرشحين جيدين لإصدار مفتوح.
“[T]لم يكن نوع النموذج الذي يمكنك تشغيله محليًا على جهاز الكمبيوتر المحمول الخاص بك ، مثل Whisper “.[W]نريد أن تتأكد من أننا إذا نطلقنا الأمور في مفتوح المصدر ، فنحن نفعل ذلك بعناية ، ولدينا نموذج يتم شحذه حقًا لهذه الحاجة المحددة. ونعتقد أن أجهزة المستخدم النهائي هي واحدة من أكثر الحالات إثارة للاهتمام لنماذج المصدر المفتوح. “
تم تحديثه في 20 مارس 2025 ، 11:54 صباحًا PT لتوضيح اللغة حول معدل خطأ الكلمات وتحديث مخطط النتائج القياسية مع إصدار أكثر حداثة.
اكتشاف المزيد من اشراق اون لاين
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.