Generaal

Hierdie AI-sagteware kan skaars realistiese, nep-video's uit klankgrepe genereer


Navorsers van die Universiteit van Washington het 'n nuwe diepleertegnologie ontwikkel wat hulle in staat gestel het om hoogs realistiese video's te maak deur klankgrepe na outentieke videoverwysings te oorvleuel. Hulle kon klankgrepe van die voormalige Amerikaanse president Barrack Obama sinchroniseer met vier verskillende videoscenario's waarin hy verskyn het.

Lip-sinkronisering van 'wilde' video-inhoud om sintetiese, maar realistiese video's te skep

Vorige pogings om klankmonsters met videogrepe te sinkroniseer, word maklik as vals beskou en meestal griezelig of onaangenaam om na te kyk. Die nuwe algoritme wat deur die Universiteit van Washington ontwikkel is, kon egter klank- en videogrepe glad synchroniseer, wat 'n algemene probleem oorkom het om realistiese video's te skep wat bekend staan ​​as die vreemde vallei. Supasorn Suwajanakorn, die hoofskrywer van die gepubliseerde artikel, het opgemerk dat die proses van die lipsynchronisering van 'n videomateriaal kompleks is.

"Mense is besonder sensitief vir enige dele van jou mond wat nie realisties lyk nie. As jy nie tande regruk of die ken op die verkeerde tyd beweeg nie, kan mense dit dadelik raaksien en dit sal vals lyk. So jy moet die mondgebied perfek weergee om verder as die vreemde vallei te kom ".

[Beeldbron: Universiteit van Washington]

Suwajanakorn en sy span navorsers het 'n tweestap-tegniek gebruik om hul uiters realistiese video's te vervaardig. Eerstens moes hulle 'n neurale netwerk oplei om video's van 'n spesifieke persoon te verwerk en verskillende klankgeluide in basiese mondvorme te pas. Daarna gebruik hulle 'n tegnologie uit vorige navorsing van die UW Graphics and Image Laboratory om die vasgestelde mondvorms bo-op bestaande verwysingsvideo's te oorvleuel. Een van die ander truuks wat hulle aangepak het, was om 'n klein tydsverskuiwing toe te laat sodat die neurale netwerk voorspel wat die onderwerp gaan sê. In wese het Suwajanakorn daarin geslaag om algoritmes te ontwikkel wat die vermoë het om te leer uit video's wat oral op die internet voorkom, of soos die navorsers dit stel, 'in die natuur' gevind word.

"Daar is miljoene ure se video's wat reeds bestaan ​​uit onderhoude, video-geselsies, films, televisieprogramme en ander bronne. En hierdie diep-leer-algoritmes is baie data-honger, so dit is 'n goeie pasmaat om dit op hierdie manier te doen", het die leier gesê. skrywer.

Potensiële gebruik van die diep leer tegnologie

Een van die navorsers in die span het gedink aan 'n wetenskapfiksietoepassing vir die tegnologie. Ira Kemelmacher-Shlizerman, 'n assistent-professor aan die Universiteit se Skool vir Rekenaarwetenskap en Ingenieurswese, het gesê dat die nuwe algoritme gebruik kan word vir alledaagse gebeure sowel as in futuristiese omgewings.

"Realistiese klank-na-video-omskakeling het praktiese toepassings, soos die verbetering van videokonferensies vir vergaderings, sowel as futuristiese geleenthede, soos om 'n gesprek met 'n historiese figuur in die virtuele werklikheid te kan voer deur beeldmateriaal net uit klank te skep. Dit is die soort deurbraak wat sal help om die volgende stappe moontlik te maak ".

Die diep leer-tegnologie kan ook gebruik word om 'n algemene probleem met virtuele kommunikasie aan te spreek, waar streaming video's gereeld agterbly en frustrerend is. Terwyl klankverbinding gewoonlik intyds gestroom word sonder om agter te bly.

"As u na Skype of Google Hangouts kyk, is die verbinding stotterig en met 'n lae resolusie en baie onaangenaam, maar die klank is dikwels redelik goed", het Steve Seitz, mede-outeur van die blad, gesê. "As u die klank dus sou kon gebruik om video's van 'n baie hoër gehalte te vervaardig, sou dit geweldig wees", het hy bygevoeg.

Die tegnologie van die span kan ook ontwikkel en verbeter word om dit toe te rus met algoritmes wat kan opspoor of 'n video outentiek of vervaardig is. Hulle wil ook hul tegnologie bevorder sodat dit die stem en spraak van 'n individu met minder data kan bestudeer en verwerk. Deur dit te doen, sal dit die prosesstyd verkort tot slegs 'n uur in plaas van ongeveer 14 uur.

'N Referaat oor die navorsing van die span word op 2 Augustus 2017 tydens die SIGGRAPH 2017-konferensie in Los Angeles aangebied.

Gewilde beeldbron: Supasorn Suwajanakorn / YouTube

ViaUniversiteit van Washington

SIEN OOK: Hierdie nuwe tegnologie stel klank in staat om net soos teks te redigeer


Kyk die video: CS50 Lecture by Mark Zuckerberg - 7 December 2005 (Augustus 2021).