تطلق DeepL خدمة DeepL Voice، وهي ترجمات نصية في الوقت الفعلي من الأصوات ومقاطع الفيديو
صنعت DeepL اسمًا لنفسها من خلال ترجمة النصوص عبر الإنترنت التي تدعي أنها أكثر دقة ودقة من الخدمات المقدمة من أمثال Google – وهو العرض الذي دفع الشركة الألمانية الناشئة إلى تقييم بقيمة 2 مليار دولار وأكثر من 100000 عميل يدفعون. الآن، مع استمرار تزايد الضجيج لخدمات الذكاء الاصطناعي، فإنها تضيف وضعًا آخر إلى النظام الأساسي: الصوت. سيتمكن المستخدمون الآن من استخدام DeepL Voice للاستماع إلى شخص يتحدث بلغة ما وترجمتها تلقائيًا إلى لغة أخرى في الوقت الفعلي.
الإنجليزية والألمانية واليابانية والكورية والسويدية والهولندية والفرنسية والتركية والبولندية والبرتغالية والروسية والإسبانية والإيطالية هي اللغات المنطوقة التي يستطيع DeepL “سماعها” اليوم. وفي الوقت نفسه، تتوفر التسميات التوضيحية المترجمة لجميع اللغات الـ 33 التي يدعمها DeepL Translator حاليًا.
يتوقف DeepL Voice حاليًا عن تقديم النتيجة كملف صوتي أو فيديو بحد ذاته: تستهدف الخدمة المحادثات المباشرة ومؤتمرات الفيديو في الوقت الفعلي، وتأتي على شكل نص، وليس صوتًا.
في أول هذه الخيارات، يمكنك إعداد ترجماتك لتظهر كـ “مرايا” على الهاتف الذكي – الفكرة هي أن تضع الهاتف بينكما على طاولة الاجتماعات ليرى كل جانب الكلمات المترجمة – أو كنسخ تشاركه جنبًا إلى جنب مع شخص ما. ترى خدمة مؤتمرات الفيديو أن الترجمات تظهر كترجمات مصاحبة.
قد يكون هذا شيئًا يتغير بمرور الوقت، كما ألمح جاريك كوتيلوفسكي، مؤسس الشركة ومديرها التنفيذي (في الصورة أعلاه)، في إحدى المقابلات. هذا هو أول منتج صوتي لشركة DeepL، ولكن من غير المرجح أن يكون الأخير. “[Voice] وأضاف: “هذا هو المكان الذي ستتم فيه الترجمة في العام المقبل”.
وهناك أدلة أخرى تدعم هذا البيان. بدأت Google – أحد أكبر منافسي DeepL – أيضًا في دمج التسميات التوضيحية المترجمة في الوقت الفعلي في خدمة مؤتمرات الفيديو Meet. وهناك العديد من الشركات الناشئة في مجال الذكاء الاصطناعي التي تعمل على إنشاء خدمات الترجمة الصوتية. وهي تشمل جهودًا من شركة Eleven Labs المتخصصة في الصوت بالذكاء الاصطناعي (Eleven Labs Dubbing) وآخرين مثل Panjaya، التي تنشئ ترجمات باستخدام أصوات ومقاطع فيديو “عميقة” تتطابق مع الصوت. يستخدم الأخير واجهة برمجة التطبيقات الخاصة بـ Eleven Labs، ووفقًا لـ Kutylowski، تستخدم Eleven Labs نفسها تقنية من DeepL – كما خمنت – لتشغيل خدمة الترجمة الخاصة بها.
إخراج الصوت ليس هو الشيء الوحيد الذي لم يتم إطلاقه بعد.
اعتبارًا من الآن، لا توجد أيضًا واجهة برمجة التطبيقات (API) للمنتج الصوتي. تركز الأعمال الرئيسية لشركة DeepL على B2B، وقال كوتيلوفسكي إن الشركة تعمل مع الشركاء والعملاء مباشرةً لاستخدامها.
كما لا يوجد خيار واسع من عمليات التكامل: خدمة مكالمات الفيديو الوحيدة التي تدعم ترجمات DeepL حاليًا هي Teams، والتي “تغطي معظم عملائنا”، كما قال كوتيلوفسكي. لا توجد معلومات حول متى أو ما إذا كان Zoom أو Google Meet سيدمجان DeepL Voice في المستقبل.
سيبدو المنتج وكأنه قادم لفترة طويلة بالنسبة لمستخدمي DeepL، ليس فقط لأننا كنا غارقين في عدد كبير من خدمات الذكاء الاصطناعي الصوتية الأخرى التي تهدف إلى الترجمة. قال كوتيلوفسكي إن هذا كان الطلب رقم واحد من العملاء منذ عام 2017، وهو العام الذي تم فيه إطلاق DeepL.
جزء من سبب الانتظار هو أن شركة DeepL كانت تتخذ نهجًا مدروسًا للغاية عندما يتعلق الأمر ببناء منتجها. على عكس العديد من التطبيقات الأخرى في عالم تطبيقات الذكاء الاصطناعي التي تعتمد على نماذج اللغات الكبيرة للشركات الأخرى وتقوم بتعديلها، فإن هدف DeepL هو بناء خدماتها من الألف إلى الياء. في شهر يوليو، أصدرت الشركة شهادة LLM جديدة مُحسَّنة للترجمات تقول إنها تتفوق على GPT-4 وGoogle وMicrosoft، لأسباب ليس أقلها أن غرضها الأساسي هو الترجمة. وفي هذا الصدد، واصلت أيضًا تحسين جودة مخرجاتها المكتوبة ومعجمها.
وبالمثل، فإن إحدى نقاط البيع الفريدة لـ DeepL Voice هي أنها ستعمل في الوقت الفعلي، وهو أمر مهم نظرًا لأن الكثير من خدمات “ترجمة الذكاء الاصطناعي” في السوق الآن تعمل فعليًا بتأخير، مما يجعل استخدامها أكثر صعوبة/استحالة في المواقف الحية. ، وهي حالة الاستخدام التي يعالجها DeepL على وجه التحديد. وأشار كوتيلوفسكي إلى أن هذا سبب آخر وراء تركيز منتج معالجة الصوت الجديد هذا على الترجمات النصية: يمكن حسابها وإنتاجها بسرعة كبيرة، في حين لا يزال أمام المعالجة وهندسة الذكاء الاصطناعي طريق طويل قبل أن تتمكن من إنتاج الصوت. والفيديو بأسرع ما يمكن.
في حين أنك قد تظن أن مؤتمرات الفيديو والاجتماعات من المحتمل أن تكون حالات استخدام لـ DeepL Voice، فقد أشار كوتيلوفسكي إلى أن إحدى الحالات الرئيسية الأخرى التي تتصورها الشركة هي في صناعة الخدمات، حيث يمكن للعاملين في الخطوط الأمامية في المطاعم، على سبيل المثال، استخدام الخدمة للمساعدة في التواصل مع العملاء بسهولة أكبر.
قد يكون هذا مفيدًا، ولكنه يسلط الضوء أيضًا على إحدى النقاط الأكثر صعوبة في الخدمة. في عالم أصبحنا فيه جميعًا فجأة أكثر وعيًا بحماية البيانات والمخاوف بشأن كيفية استغلال الخدمات والمنصات الجديدة للمعلومات الخاصة أو معلومات الملكية، يبقى أن نرى مدى حرص الناس على التقاط أصواتهم واستخدامها في من هنا.
أصر كوتيلوفسكي على أنه على الرغم من أن الأصوات ستنتقل إلى خوادمه لتتم ترجمتها (لا تتم المعالجة على الجهاز)، إلا أنه لا يتم الاحتفاظ بأي شيء في أنظمته، ولا يتم استخدامه لتدريب حاملي شهادة الماجستير في القانون، وأنه في النهاية سيعمل مع عملائه لتحقيق ذلك. التأكد من أنهم لا ينتهكون اللائحة العامة لحماية البيانات أو أي لوائح أخرى لحماية البيانات.
اكتشاف المزيد من اشراق اون لاين
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.