تطلق Elevenlabs نموذج خطابها إلى النص

اشتهرت شركة Elevenlabs ، وهي شركة ناشئة من الذكاء الاصطناعى التي جمعت للتو جولة تمويل بقيمة 180 مليون دولار ، في المقام الأول ببراعة من الجيل الصوتي. اتخذت الشركة خطوة في اتجاه تكنولوجي آخر من خلال إطلاق أول نموذج لخطاب إلى نص مستقل يسمى Scribe.
ساعدت الشركة الناشئة ، التي تبلغ قيمتها 3.3 مليار دولار ، العديد من الشركات الأخرى في تقديم خدمات الكلام إلى النص من خلال مكتبة أصواتها الواسعة. ومع ذلك ، فإن الشركة تتطلع الآن إلى الدخول في الكشف عن الكلام والتنافس مع أمثال Gladia و Countermatics و Assemblyai و Deepgram و Openai’s Whisper.
يدعم نموذج الكاتب Elevenlabs أكثر من 99 لغة في الإطلاق. تصنف الشركة أكثر من 25 لغة في فئة دقة ممتازة للنموذج حيث يكون معدل خطأ الكلمة أقل من 5 ٪. تشمل هذه القائمة اللغة الإنجليزية (معدل الدقة المطالب به بنسبة 97 ٪) ، الفرنسية ، الألمانية ، الهندية ، الإندونيسية ، اليابانية ، الكانادا ، المالايالام ، البولندية ، البرتغالية ، الإسبانية ، والفيتنامية. يتم تصنيف اللغات الأخرى في فئات مختلفة ذات معدل خطأ في الكلمات المرتفعة (5 ٪ إلى 10 ٪) ، ومعدل خطأ الكلمات الجيد (10 ٪ إلى 20 ٪) ، ومعدلات الخطأ المعتدلة (25 ٪ إلى 50 ٪).
قالت الشركة إن النموذج يتفوق على Google Gemini 2.0 Flash و Homper V3 عبر لغات متعددة في اختبارات فليورز واختبارات صوتية شائعة.
قامت Elevenlabs بتطوير مكون الكلام إلى النص لمنصة AI Agent Agent ، التي تم إصدارها العام الماضي. ومع ذلك ، هذه هي المرة الأولى التي تصدر فيها الشركة نموذجًا مستقلًا للكشف عن الكلام. في محادثة مع TechCrunch الشهر الماضي ، تحدث الرئيس التنفيذي Mati Staniszewski عن تحسين نماذج الكشف عن الكلام.
“نريد أن نفهم ما تقله في محادثة أفضل. وقال ستانيسزوسكي في ذلك الوقت: “نحن نعمل على طرق للابتعاد عن توليد المحتوى وفهم الكلام ونقصها فقط”. يقول الكثير من الناس أن الكلام إلى النص يمثل مشكلة حلول. ولكن بالنسبة للعديد من اللغات ، إنه أمر سيء للغاية. نعتقد أنه يمكننا بناء نماذج أفضل للكشف عن الكلام لأن لدينا فرقًا داخلية للتعليق على البيانات ومنحنا ملاحظات سريعة. “
يحتوي النموذج أيضًا على متحدث ذكي لإخبارك بمن يتحدث ، والطابع الزمني على مستوى الكلمات للحصول على ترجمات دقيقة ، وأحداث صوتية لقياس العلامات التلقائية مثل ضحك الجمهور. توفر بدء التشغيل وسيلة للعملاء لنسخ محتوى الفيديو مباشرة لإضافة ترجمات أو توضيح في الاستوديو الخاص بها.
يعمل Scribe حاليًا فقط مع تنسيقات الصوت المسجلة مسبقًا. وقالت الشركة إنها ستصدر نسخة منخفضة في الوقت الفعلي من النموذج قريبًا. هذا يعني أنه ليس فعالًا بعد لتلبية النسخ أو تدوين الملاحظات الصوتية.
Elevenlabs هو تسعير الكاتب بسعر 0.40 دولار لمدة ساعة من الصوت المكتوبة. على الرغم من أن المعدل قادر على المنافسة ، فإن بعض منافسيه يوفرون سعرًا أقل للنسخ الصوتي في الوقت الحالي مع بعض تمايز الميزات.
اكتشاف المزيد من اشراق اون لاين
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.