Zákulisí: Naše laboratoř pro strojové učení

Maria Žuková

Vedoucí copywritingu ve společnosti Brask

Zveřejněno

30. dubna 2024

,

16

Čas na přečtení:

,

Co najdete uvnitř

V našem nejnovějším článku se pod vedením vedoucího oddělení strojového učení společnosti Rask , Dimy Vypirailenka, ponoříme do fascinujícího světa technologie synchronizace rtů. Zavede vás do zákulisí Brask ML Lab, centra excelence v oblasti technologií, kde na vlastní oči uvidíte, jak tento inovativní nástroj umělé inteligence přináší revoluci do tvorby a distribuce obsahu. Náš tým tvoří špičkoví inženýři v oblasti strojového učení a umělci zabývající se syntetickými vizuálními efekty, kteří se nejen přizpůsobují budoucnosti, ale také ji vytvářejí.

Připojte se k nám a zjistěte, jak tato technologie mění tvůrčí odvětví, snižuje náklady a pomáhá tvůrcům oslovit publikum po celém světě.

Co je to technologie synchronizace rtů?

Jednou z hlavních výzev při lokalizaci videí je nepřirozený pohyb rtů. Technologie synchronizace rtů je navržena tak, aby účinně pomáhala sladit pohyb rtů s vícejazyčnými zvukovými stopami.

Jak jsme se dozvěděli z našeho posledního článku, technika synchronizace rtů je mnohem složitější, než jen správné načasování – je třeba správně zachytit i pohyby úst. Každé vyslovené slovo má vliv na výraz tváře mluvčího; například při vyslovení hlásky „O“ se ústa zjevně roztáhnou do oválného tvaru, takže nevznikne tvar písmene „M“, což proces dabování značně komplikuje.

Představujeme nový model pro synchronizaci rtů v ještě lepší kvalitě!

Náš tým pro strojové učení se rozhodl vylepšit stávající model synchronizace rtů. Co bylo důvodem tohoto rozhodnutí a co je v této verzi nového oproti beta verzi?

Dima Vypirailenko

Vedoucí oddělení strojového učení ve společnosti Rask

Ačkoli jsou výsledky naší synchronizace rtů vynikající a vzbudily značný zájem médií, včetně televizních reportáží a rozhovorů o naší technologii, při uvedení beta verze modelu synchronizace rtů jsme si uvědomili, že nesplňuje očekávání ohledně kvality u všech segmentů uživatelů. Naším hlavním cílem bylo tuto mezeru překlenout a zajistit, aby naši uživatelé mohli efektivně lokalizovat nejen zvukovou, ale i obrazovou složku svého obsahu.

Bylo vynaloženo značné úsilí na vylepšení modelu, mimo jiné:

Zvýšená přesnost: Vylepšili jsme algoritmy umělé inteligence tak, aby lépe analyzovaly a přizpůsobovaly fonetické detaily mluveného jazyka, což vede k přesnějším pohybům rtů, které jsou v mnoha jazycích dokonale synchronizovány se zvukem.
‍Vylepšená přirozenost: Díky integraci pokročilejších dat ze snímání pohybu a zdokonalení našich technik strojového učení se nám podařilo výrazně zlepšit přirozenost pohybů rtů, díky čemuž řeč postav působí plynuleji a realisticky.
Vyšší rychlost a efektivita: Model jsme optimalizovali tak, aby zpracovával videa rychleji, aniž by došlo ke snížení kvality, což umožňuje zkrátit dodací lhůty u projektů vyžadujících lokalizaci ve velkém měřítku.
Zohlednění zpětné vazby od uživatelů: Aktivně jsme shromažďovali zpětnou vazbu od uživatelů beta verze a jejich připomínky jsme zapracovali do vývojového procesu, abychom vyřešili konkrétní problémy a zvýšili celkovou spokojenost uživatelů.

Jak přesně náš model umělé inteligence synchronizuje pohyby rtů s přeloženým zvukem?

Dima: „Náš model umělé inteligence funguje tak, že kombinuje informace z přeloženého zvukového záznamu s informacemi o obličeji osoby v záběru a následně je spojuje do konečného výstupu. Díky této integraci jsou pohyby rtů přesně synchronizovány s přeloženou řečí, což zajišťuje plynulý zážitek ze sledování.“

Díky jakým jedinečným vlastnostem je Premium Lip-Sync ideální pro tvorbu vysoce kvalitního obsahu?

Dima: „Premium Lip-sync je díky svým jedinečným funkcím, jako je podpora více mluvčích a vysoké rozlišení, speciálně navržen pro zpracování vysoce kvalitního obsahu. Dokáže zpracovat videa s rozlišením až 2K a zajistit tak zachování vizuální kvality bez jakýchkoli kompromisů. Funkce více mluvčích navíc umožňuje přesnou synchronizaci rtů u různých mluvčích v rámci stejného videa, což je velmi efektivní pro komplexní produkce zahrnující více postav nebo mluvčích. Díky těmto funkcím je Premium Lip-sync nejlepší volbou pro tvůrce, kteří usilují o obsah na profesionální úrovni.“

A co je to funkce synchronizace zvuku u více reproduktorů?

Funkce synchronizace rtů u více mluvčích je navržena tak, aby přesně synchronizovala pohyby rtů s mluveným zvukem ve videích, ve kterých vystupuje více osob. Tato pokročilá technologie rozpoznává a rozlišuje více tváří v jednom snímku a zajišťuje, že pohyby rtů každé osoby jsou správně animovány v souladu s tím, co právě říká.

Jak funguje synchronizace rtů u více reproduktorů:

Rozpoznávání obličejů v záběru: Tato funkce nejprve rozpozná všechny obličeje přítomné ve videozáběru, bez ohledu na jejich počet. Je schopna identifikovat každou jednotlivou osobu, což je zásadní pro přesnou synchronizaci rtů.
‍Synchronizace zvuku: Během přehrávání videa tato technologie přizpůsobuje zvukovou stopu konkrétně osobě, která právě mluví. Tento přesný proces synchronizace zajišťuje, že hlas a pohyby rtů jsou v synchronizaci.
Synchronizace pohybu rtů: Jakmile je mluvící osoba identifikována, funkce synchronizace rtů překreslí pohyby rtů pouze u této osoby. U osob v záběru, které nemluví, nedojde ke změně pohybu rtů, takže si po celou dobu videa zachovají svůj přirozený vzhled. Tato synchronizace se vztahuje výhradně na aktivního mluvčího, díky čemuž je účinná i v případě hlasů mimo záběr nebo více osob ve scéně.
Zpracování statických snímků rtů: Je zajímavé, že tato technologie je natolik sofistikovaná, že dokáže překreslit pohyb rtů i na statických snímcích rtů, pokud se tyto objeví ve videozáběru, což dokazuje její všestrannost.

Tato funkce synchronizace rtů u více mluvčích zvyšuje realističnost a zapojení diváků ve scénách s více mluvčími nebo složitým videonastavením tím, že zajišťuje, aby se v souladu se zvukem pohybovaly pouze rty mluvících osob. Tento cílený přístup pomáhá udržet pozornost na aktivním mluvčím a zachovává přirozenou dynamiku skupinových interakcí ve videích.

Z jediného videa v jakémkoli jazyce můžete vytvořit stovky personalizovaných videí představujících různé nabídky v několika jazycích. Tato univerzálnost přináší revoluci do způsobu, jakým mohou marketéři oslovovat rozmanité a globální publikum, a zvyšuje tak dopad a dosah propagačního obsahu.

Jak se vám daří najít rovnováhu mezi kvalitou a rychlostí zpracování v nové funkci Premium Lip-sync?

Dima: „Skloubit vysokou kvalitu s vysokou rychlostí zpracování v Premium Lipsync je náročné, ale v optimalizaci inferenčního modelu jsme dosáhli významného pokroku. Díky této optimalizaci dokážeme poskytovat co nejlepší kvalitu při přijatelné rychlosti.“

Dima Vypirailenko

Vedoucí oddělení strojového učení ve společnosti Rask

Zaměřujeme se na zpracování pouze nezbytných informací z videa uživatele, což výrazně zkracuje dobu zpracování modelu. Zjednodušením dat, která náš model potřebuje analyzovat, zajišťujeme jak efektivitu, tak zachování vysoké kvality výstupu, čímž splňujeme požadavky profesionálních tvůrců obsahu.

Narazili jste při trénování modelu na nějaké zajímavé nedostatky nebo překvapení?

Dima Vypirailenko

Vedoucí oddělení strojového učení ve společnosti Rask

Ano, čelili jsme několika zajímavým výzvám, zejména pokud jde o to, aby správně vypadaly nejen rty, ale i vousy a zuby. Je to skoro jako bychom všichni někdy absolvovali zubní lékařství!

Kromě toho se práce s okluzemi v oblasti úst ukázala jako poměrně náročná. Tyto prvky vyžadují pečlivý smysl pro detail a sofistikované modelování, aby bylo možné dosáhnout realistického a přesného zobrazení v rámci naší technologie synchronizace rtů.

Jak tým strojového učení zajišťuje ochranu osobních údajů uživatelů při zpracování videozáznamů?

Dima: Náš tým pro strojové učení bere ochranu osobních údajů uživatelů velmi vážně. U modelu Lipsync nepoužíváme k trénování žádná zákaznická data, čímž eliminujeme jakékoli riziko zneužití identity. K trénování našeho modelu využíváme výhradně data z otevřených zdrojů, která jsou opatřena příslušnými licencemi. Model navíc funguje jako samostatná instance pro každého uživatele, což zaručuje, že výsledné video je doručeno pouze konkrétnímu uživateli, a zabraňuje jakémukoli prolínání dat.

Naším hlavním cílem je podporovat tvůrce a zajistit odpovědné využívání umělé inteligence při tvorbě obsahu, přičemž klademe důraz na dodržování právních předpisů a etickou transparentnost. Zaručujeme, že vaše videa, fotografie, hlasy a podobizny nebudou nikdy použity bez výslovného souhlasu, čímž zajišťujeme ochranu vašich osobních údajů a tvůrčích výtvorů.

Jsme hrdými členy Koalice pro původ a autentičnost obsahu (C2PA) a Iniciativy pro autentičnost obsahu, což odráží náš závazek k integritě a autentičnosti obsahu v digitálním věku. Naše zakladatelka a generální ředitelka Maria Chmir je navíc uvedena v seznamu Women in AI Ethics™, což podtrhuje naši vedoucí roli v oblasti etických postupů v oblasti umělé inteligence.

Jaké jsou vyhlídky do budoucna, pokud jde o vývoj technologie synchronizace zvuku a obrazu? Existují nějaké konkrétní oblasti, které vás obzvláště zajímají?

Dima: Jsme přesvědčeni, že naše technologie synchronizace rtů může sloužit jako základ pro další vývoj v oblasti digitálních avatarů. Představujeme si budoucnost, ve které bude moci kdokoli vytvářet a lokalizovat obsah, aniž by mu vznikaly náklady na výrobu videa.

V nejbližší době, tedy během následujících dvou měsíců, se zaměříme na zlepšení výkonu a kvality našeho modelu. Naším cílem je zajistit plynulý chod při zpracování 4K videí a vylepšit funkčnost u videí přeložených do asijských jazyků. Tyto pokroky jsou klíčové, protože se snažíme rozšířit dostupnost a použitelnost naší technologie a připravit tak půdu pro inovativní aplikace v oblasti tvorby digitálního obsahu. Překonání jazykových bariér nikdy nebylo tak na dosah! Vyzkoušejte naši vylepšenou funkci synchronizace rtů a pošlete nám svůj názor na tuto funkci.

Často kladené otázky

Co si rozhodně musíte přečíst