Programování

Co jsou to padělky? AI, která klame

Deepfakes jsou média - často video, ale někdy i zvuk - která byla vytvořena, pozměněna nebo syntetizována pomocí hlubokého učení, aby se pokusila oklamat některé diváky nebo posluchače, aby uvěřili falešné události nebo falešné zprávě.

Původní příklad deepfake (uživatelem reddit / u / deepfake) vyměnil tvář herečky za tělo pornoherečky ve videu - což bylo samozřejmě zcela neetické, i když zpočátku nelegální. Další hluboké podvody změnily to, co slavní lidé říkali, nebo jazyk, kterým mluvili.

Deepfakes rozšiřují myšlenku skládání videa (nebo filmu), což se děje po celá desetiletí. Významné video dovednosti, čas a vybavení jdou do skládání videa; deepfakes videa vyžadují mnohem méně dovedností, času (za předpokladu, že máte GPU) a vybavení, i když pro pečlivé pozorovatele jsou často nepřesvědčivé.

Jak vytvořit hluboké předstírání

Deepfakes původně spoléhaly na autoencoders, typ neuronové sítě bez dohledu, a mnoho z nich stále ano. Někteří lidé tuto techniku ​​vylepšili pomocí GAN (generativní kontradiktorní sítě). Pro hluboké podvody byly také použity jiné metody strojového učení, někdy v kombinaci s metodami bez strojového učení, s různými výsledky.

Autoencoders

Automatické kodéry pro hluboké falešné tváře v obrázcích v podstatě probíhají ve dvou krocích. Prvním krokem je použití neurální sítě k extrakci obličeje ze zdrojového obrazu a jeho zakódování do sady prvků a případně masky, obvykle pomocí několika 2D konvolučních vrstev, několika hustých vrstev a vrstvy softmax. Druhým krokem je použití jiné neuronové sítě k dekódování prvků, upscalování generovaného obličeje, otáčení a zmenšení velikosti obličeje podle potřeby a použití upscalovaného obličeje na jiný obrázek.

Výcvik autoencoderu pro generování hlubokých obličejů vyžaduje spoustu obrázků zdrojových a cílových obličejů z různých úhlů pohledu a za různých světelných podmínek. Bez GPU může trénink trvat týdny. S GPU to jde mnohem rychleji.

GAN

Generativní nepřátelské sítě mohou vylepšit výsledky autoencoderů, například postavením dvou neuronových sítí proti sobě. Generativní síť se pokusí vytvořit příklady, které mají stejné statistiky jako originál, zatímco diskriminační síť se pokusí detekovat odchylky od původní distribuce dat.

Výcvik GAN je časově náročná iterační technika, která výrazně zvyšuje náklady ve výpočetním čase oproti automatickým kódovačům. V současné době jsou sítě GAN vhodnější pro generování realistických snímků jednotlivých imaginárních lidí (např. StyleGAN) než pro vytváření hlubokých videí. To by se mohlo změnit, protože hardware pro hluboké učení se zrychluje.

Jak detekovat padělky

Na začátku roku 2020 vytvořilo konsorcium AWS, Facebook, Microsoft, Řídícího výboru pro partnerství pro integritu médií AI a akademiků Deepfake Detection Challenge (DFDC), který fungoval na Kaggle čtyři měsíce.

Soutěž zahrnovala dvě dobře zdokumentovaná prototypová řešení: úvod a startovací sadu. Vítězné řešení od Selima Seferbekova má také docela dobrý zápis.

Pokud se nejednáte o hluboké neuronové sítě a zpracování obrazu, podrobnosti řešení vám zkříží oči. V zásadě vítězné řešení provedlo detekci obličeje snímek po snímku a extrahovalo indexové masky SSIM (Structural Podobnost). Software extrahoval detekované tváře plus 30% marži a pro kódování (klasifikaci) použil EfficientNet B7 předcvičený na ImageNet. Řešení je nyní open source.

Je smutné, že i vítězná řešení dokázala zachytit pouze asi dvě třetiny hlubokých padělků v testovací databázi DFDC.

Deepfake vytváření a detekční aplikace

Jednou z nejlepších aplikací pro vytváření hlubokých falešných videí s otevřeným zdrojovým kódem je aktuálně Faceswap, který staví na původním algoritmu hlubokých falešných zpráv. Spisovatelovi Ars Technica Timovi Leeovi trvalo dva týdny pomocí Faceswapu vytvořit hluboký padělek, který vyměnil tvář poručíka Data (Brent Spiner) zStar Trek: Nová generace do videa Marka Zuckerberga svědčícího před Kongresem. Jak je pro deepfakes typické, výsledek neprojde čichovým testem pro kohokoli s výraznou propracovaností grafiky. Současný stav hlubokých padělků tedy stále není příliš dobrý, až na vzácné výjimky, které závisí spíše na dovednostech „umělce“ než na technologii.

To je poněkud uklidňující, protože ani vítězná řešení detekce DFDC nejsou příliš dobrá. Společnost Microsoft mezitím oznámila, ale od tohoto psaní nevydala Microsoft Video Authenticator. Microsoft říká, že Video Authenticator může analyzovat statické fotografie nebo videa, aby poskytl procentní šanci nebo skóre spolehlivosti, že média jsou uměle manipulována.

Video Authenticator byl testován proti datové sadě DFDC; Microsoft ještě nehlásil, o kolik je to lepší než vítězné řešení Kaggle od Seferbekova. Pro sponzora soutěže AI by bylo typické stavět a vylepšovat vítězná řešení ze soutěže.

Facebook také slibuje detektor falešných zpráv, ale plánuje ponechat zdrojový kód uzavřený. Jedním z problémů s otevřenými zdroji detektorů hlubin, jako je Seferbekov, je, že vývojáři generací detektorů hlubokých otřesů mohou používat detektor jako diskriminátor v GAN, aby zajistili, že falešný detektor projde, což nakonec podpoří závody ve zbrojení AI mezi generátory hlubin a detektory hlubin.

Pokud jde o zvuk, mohou Descript Overdub a Adobe předvedené, ale dosud nevydané VoCo, učinit převod textu na řeč realistickým. Trénujete Overdub asi 10 minut, abyste vytvořili syntetickou verzi svého vlastního hlasu; po proškolení můžete své komentáře upravit jako text.

Související technologií je Google WaveNet. Hlasy syntetizované pomocí WaveNet jsou realističtější než standardní hlasy převodu textu na řeč, i když podle vlastních testů Google nejsou zcela na úrovni přirozených hlasů. Pokud jste nedávno použili hlasový výstup z Asistenta Google, Vyhledávání Google nebo Překladače Google, slyšeli jste hlasy WaveNet.

Hluboké podvody a nedobrovolná pornografie

Jak jsem již zmínil, původní deepfake ve videu vyměnil tvář herečky za tělo pornoherečky. Reddit od té doby zakázal sub-Reddit / r / deepfake, který hostil tento a další pornografické deepfakes, protože většina obsahu byla nedobrovolná pornografie, která je nyní alespoň v některých jurisdikcích nelegální.

Další sub-Reddit pro ne-pornographic deepfakes stále existuje na / r / SFWdeepfakes. Zatímco obyvatelé tohoto sub-Redditu tvrdí, že dělají dobrou práci, budete muset sami posoudit, zda má, řekněme, vidět, že tvář Joe Bidena špatně předstíraná do těla Roda Serlinga má nějakou hodnotu - a zda některý z hlubokých falzifikátů čichový test důvěryhodnosti. Podle mého názoru se někteří blíží tomu, že se prodávají jako skuteční; většinu lze charitativně popsat jako surovou.

Zákaz / r / deepfake samozřejmě nevylučuje nedobrovolnou pornografii, která může mít více motivací, včetně pornografie pomsty, která je sama o sobě v USA trestným činem. Mezi další weby, které zakázaly nedobrovolné hluboké podvody, patří Gfycat, Twitter, Discord, Google a Pornhub a nakonec (po dlouhém tažení) Facebook a Instagram.

V Kalifornii mají jednotlivci, na které se zaměřuje sexuálně explicitní hluboký obsah vytvořený bez jejich souhlasu, žalobu proti tvůrci obsahu. Rovněž v Kalifornii je zakázána distribuce škodlivých hlubokých zvukových nebo vizuálních médií zaměřených na kandidáta kandidujícího do veřejné funkce do 60 dnů od jeho zvolení. Čína požaduje, aby byly hlubinné padělky jasně označeny.

Hluboké padělání v politice

Mnoho dalších jurisdikcí nedostatek zákony proti politickým podvodům. To může být znepokojující, zvláště když se díky vysoce kvalitním podvodům politických osobností dostane do široké distribuce. Byl by falzifikát Nancy Pelosi horší než konvenčně zpomalené video Pelosi manipulované tak, aby to znělo, jako by svrhla svá slova? Mohlo by to být, pokud bude vyrobeno dobře. Podívejte se například na toto video z CNN, které se soustředí na hluboké podvody související s prezidentskou kampaní v roce 2020.

Deepfakes jako výmluvy

„Je to podvod“ je také možnou výmluvou pro politiky, jejichž skutečná trapná videa unikla. To se nedávno stalo (nebo údajně stalo) v Malajsii, když ministr hospodářství odmítl homosexuální pásku jako padělek, přestože druhý muž, který byl na pásku uveden, přísahal, že je to skutečné.

Na druhou stranu, distribuce pravděpodobného amatérského hlubokého falšování chorého prezidenta Aliho Bonga z Gabonu byla faktorem přispívajícím k následnému vojenskému puči proti Bongovi. Hluboké falešné video upozornilo armádu na to, že něco není v pořádku, dokonce víc než Bongova delší nepřítomnost v médiích.

Další falešné příklady

Nedávné hluboké falešné video z Hvězdný, klasika Smash Mouth z roku 1999, je příkladem manipulace s videem (v tomto případě mashup z populárních filmů) k falešné synchronizaci rtů. Tvůrce, uživatel YouTube ontyj, poznamenává, že „Nechali jsme se unést testováním wav2lip a nyní toto existuje ...“ Je to zábavné, i když nepřesvědčivé. Nicméně ukazuje, o kolik se zlepšil pohyb předstíraného rtu. Před několika lety byl nepřirozený pohyb rtů obvykle mrtvou reklamou zfalšovaného videa.

Mohlo by to být horší. Podívejte se na toto hluboké video prezidenta Obamy jako terče a Jordana Peeleho jako řidiče. Nyní si představte, že neobsahoval žádný kontext, který by jej odhalil jako falešný, a zahrnoval zápalnou výzvu k akci.

Už jste vyděšení?

Přečtěte si více o strojovém učení a hlubokém učení:

  • Hluboké učení vs. strojové učení: Pochopte rozdíly
  • Co je to strojové učení? Inteligence odvozená z dat
  • Co je hluboké učení? Algoritmy, které napodobují lidský mozek
  • Algoritmy strojového učení vysvětleny
  • Vysvětleno automatické strojové učení nebo AutoML
  • Výuka pod dohledem je vysvětlena
  • Vysvětlení částečně pod dohledem
  • Vysvětlení bez dozoru
  • Výklad výztuže vysvětlen
  • Co je počítačové vidění? AI pro obrázky a videa
  • Co je rozpoznávání obličeje? AI pro Big Brother
  • Co je zpracování přirozeného jazyka? AI pro řeč a text
  • Kaggle: Kde se vědci o datech učí a soutěží
  • Co je CUDA? Paralelní zpracování pro GPU