يستخدم بانجايا، بقيادة مؤسس باع شركة فيديو ناشئة لشركة أبل، تقنيات التزييف العميق للتأثير في دبلجة الفيديو
هناك فرصة كبيرة للذكاء الاصطناعي التوليدي في عالم الترجمة، وشركة ناشئة تدعى Panjaya تنقل هذا المفهوم إلى المستوى التالي: أداة دبلجة عامة تعتمد على الذكاء الاصطناعي لمقاطع الفيديو تعيد إنشاء الصوت الأصلي للشخص وهو يتحدث اللغة الجديدة ، مع تعديل الفيديو والحركات الجسدية للمتحدث تلقائيًا لتتوافق بشكل طبيعي مع أنماط الكلام الجديدة.
بعد أن ظلت متخفية على مدى السنوات الثلاث الماضية، كشفت الشركة الناشئة عن BodyTalk، الإصدار الأول من منتجها، إلى جانب أول تمويل خارجي لها بقيمة 9.5 مليون دولار.
Panjaya هي من بنات أفكار هيليك شاني وأرييل شالوم، وهما متخصصان في التعلم العميق قضيا معظم حياتهما المهنية في العمل بهدوء على تكنولوجيا التعلم العميق للحكومة الإسرائيلية وهما الآن على التوالي المدير العام للشركة الناشئة ومدير التكنولوجيا التنفيذي. لقد علقوا قبعات G-man الخاصة بهم في عام 2021 مع حكة الشركات الناشئة، وقبل 1.5 عام، انضم إليهم جاي بيكرز كرئيس تنفيذي.
Piekarz ليس مؤسسًا في Panjaya، لكنه اسم بارز: في عام 2013، قام ببيع شركة ناشئة كان يملكها فعل وجدت لشركة أبل. كان ماتشا، كما كان يُطلق على الشركة الناشئة، لاعبًا مبكرًا ومبهجًا في اكتشاف مقاطع الفيديو والتوصية بها، وقد تم الاستحواذ عليها خلال الأيام الأولى لاستراتيجية Apple للتلفزيون والبث، عندما كانت هذه شائعات أكثر من كونها منتجات فعلية. تم تمهيد الماتشا وبيعها مقابل أغنية بقيمة تتراوح ما بين 10 ملايين إلى 15 مليون دولار، وهو مبلغ متواضع بالنظر إلى التوجه الكبير الذي حققته شركة Apple في نهاية المطاف في الوسائط المتدفقة.
بقي Piekarz مع شركة Apple لما يقرب من عقد من الزمن في بناء Apple TV ومن ثم قطاعها الرياضي. بعد ذلك، تم تقديمه إلى بانجايا من خلال شركة Viola Ventures، أحد داعميها (ومن بين الآخرين R-Squared Ventures، والمؤسس المشارك والرئيس التنفيذي لشركة JFrog شلومي بن حاييم، وكريس رايس، وغاي شوري، وريان فلويد من Storm Ventures، وعلي بهنام من Riviera Partners). و عوديد فاردي.
قال بيكرز: “كنت قد تركت شركة Apple بحلول ذلك الوقت وكنت أخطط للقيام بشيء مختلف تمامًا”. “ومع ذلك، فقد أذهلتني رؤية العرض التجريبي للتكنولوجيا، والباقي أصبح تاريخًا.”
يعد BodyTalk مثيرًا للاهتمام لأنه يجمع في نفس الوقت العديد من قطع التكنولوجيا التي تلعب على جوانب مختلفة من الوسائط الاصطناعية في الإطار.
يبدأ الأمر بالترجمة الصوتية التي يمكنها حاليًا تقديم ترجمات بـ 29 لغة. يتم بعد ذلك نطق الترجمة بصوت يحاكي المتحدث الأصلي، والذي بدوره يتم ضبطه على نسخة من الفيديو الأصلي حيث يتم تعديل شفاه المتحدث وحركاته الأخرى لتناسب الكلمات والصياغة الجديدة. يتم إنشاء كل هذا تلقائيًا على مقاطع الفيديو بعد أن يقوم المستخدمون بتحميلها على النظام الأساسي، والذي يأتي أيضًا مع لوحة تحكم تتضمن المزيد من أدوات التحرير. تتضمن الخطط المستقبلية واجهة برمجة التطبيقات (API)، بالإضافة إلى الاقتراب من المعالجة في الوقت الفعلي. (في الوقت الحالي، يعمل تطبيق BodyTalk “في الوقت الفعلي تقريبًا”، حيث يستغرق دقائق لمعالجة مقاطع الفيديو، على حد قول بيكارز).
“إننا نستخدم أفضل السلالات حيث نحتاج إلى ذلك”، قال بيكرز عن استخدام الشركة لنماذج اللغات الكبيرة التابعة لجهات خارجية وأدوات أخرى. “ونحن نبني نماذج الذكاء الاصطناعي الخاصة بنا حيث لا يوجد لدى السوق حل حقيقي.”
وتابع أن أحد الأمثلة على ذلك هو مزامنة الشفاه الخاصة بالشركة. “تم تطوير محرك مزامنة الشفاه الخاص بنا بالكامل بواسطة فريق أبحاث الذكاء الاصطناعي لدينا، لأننا لم نعثر على أي شيء يصل إلى هذا المستوى والجودة لمكبرات الصوت المتعددة والزوايا وجميع حالات الاستخدام التجاري التي نرغب في دعمها.”
ينصب تركيزها في الوقت الحالي على B2B فقط؛ يشمل العملاء JFrog ومنظمة TED الإعلامية. وتخطط الشركة للتوسع بشكل أكبر في مجال الإعلام، وتحديدًا في مجالات مثل الرياضة والتعليم والتسويق والرعاية الصحية والطب.
تعد مقاطع الفيديو المترجمة الناتجة غريبة للغاية، ولا تختلف عن ما تحصل عليه من خلال التزييف العميق، على الرغم من أن Piekarz يتعجب من هذا المصطلح، الذي اكتسب دلالات سلبية على مر السنين وهي عكس السوق الذي تستهدفه الشركة الناشئة تمامًا.
وقال: “”التزييف العميق” ليس من الأمور التي نهتم بها”. “نحن نتطلع إلى تجنب هذا الاسم بالكامل.” وقال بدلاً من ذلك، فكر في بانجايا كجزء من “الفئة الحقيقية العميقة”.
وأضاف أنه من خلال استهداف سوق B2B فقط، والتحكم في من يمكنه الوصول إلى أدواتها، تقوم الشركة بإنشاء “حواجز حماية” حول التكنولوجيا للحماية من سوء الاستخدام. ويعتقد أيضًا أنه على المدى الطويل سيكون هناك المزيد من الأدوات التي تم إنشاؤها، بما في ذلك العلامات المائية، للمساعدة في اكتشاف متى تم تعديل أي مقاطع فيديو لإنشاء وسائط اصطناعية، سواء كانت شرعية أو شائنة. وقال: “نريد بالتأكيد أن نكون جزءًا من ذلك وألا نسمح بالمعلومات المضللة”.
الطباعة ليست على ما يرام
هناك عدد من الشركات الناشئة التي تتنافس مع Panjaya في المجال الأوسع للترجمة المعتمدة على الذكاء الاصطناعي لمقاطع الفيديو، بما في ذلك الأسماء الكبيرة مثل Vimeo وEleven Labs، بالإضافة إلى شركات أصغر مثل Speechify وSynthesis. بالنسبة لهم جميعًا، يبدو بناء طرق لتحسين طريقة عمل الدبلجة أشبه بالسباحة ضد تيار قوي. وذلك لأن التسميات التوضيحية أصبحت جزءًا قياسيًا جدًا من كيفية استهلاك الفيديو هذه الأيام.
على شاشة التلفزيون، يرجع ذلك إلى مجموعة من الأسباب مثل ضعف مكبرات الصوت، والضوضاء الخلفية في حياتنا المزدحمة، والممثلين الذين يتمتمون، وميزانيات الإنتاج المحدودة، والمزيد من المؤثرات الصوتية. وجدت شبكة سي بي إس في استطلاع لمشاهدي التلفزيون الأمريكي أن أكثر من نصفهم احتفظوا بالترجمة في “بعض (21٪) أو كل (34٪) من الوقت”.
لكن بعض التسميات التوضيحية تحبها فقط لأنها مسلية للقراءة، وكانت هناك عبادة كاملة مبنية حول ذلك.
على وسائل التواصل الاجتماعي والتطبيقات الأخرى، يتم دمج الترجمات ببساطة في التجربة. على سبيل المثال، بدأ TikTok في نوفمبر 2023 لتشغيل التسميات التوضيحية افتراضيًا على جميع مقاطع الفيديو.
ومع ذلك، لا يزال هناك سوق ضخم على المستوى الدولي للمحتوى المدبلج، وحتى إذا كان يُنظر إلى اللغة الإنجليزية في كثير من الأحيان على أنها لغة مشتركة للإنترنت، فهناك أدلة من مجموعات بحثية مثل CSA على أن المحتوى المقدم باللغات الأصلية يحظى بمشاركة أفضل، خاصة في سياق B2B. ويرى بانجايا أن المزيد من المحتوى الطبيعي باللغة الأصلية يمكن أن يحقق نتائج أفضل.
ويبدو أن بعض عملائها يدعمون هذه النظرية. يقول TED أن المحادثات المدبلجة باستخدام أدوات بانجايا شهدت زيادة في المشاهدات بنسبة 115%، مع تضاعف معدلات إكمال مقاطع الفيديو المترجمة.
اكتشاف المزيد من اشراق اون لاين
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.