Szele Tamás: Deepfake politika

A világpolitika már nem aggodalommal, hanem egyenesen félelemmel figyeli a deepfake technológia és a mesterséges intelligencia együttes használatával létrejövő, mind népszerűbb propaganda-módszereket, melyeknek hatékonysága minden korábbit felülmúl (főleg egyelőre, míg a közönség nem szokja meg, hogy már nem hihet sem a szemének, sem a fülének).

A politikai manipuláció lehetőségei szó szerint határtalanokká váltak: és mivel az eszközök olcsók vagy ingyenesek (például a képalkotó MI-k esetében), egyre gyakoribb az alkalmazásuk. Csak az elmúlt hét folyamán három esetről számolt be a világsajtó, amelyek során a deepfake-MI-technológia nagy tömegeket tévesztett vagy téveszthetett meg.

A legártatlanabb eset a köztiszteletben álló Ferenc pápáé volt, akiről terjedni kezdett egy kép, melyen hófehér tollkabátot visel, és mint kiderült, a Midjourney segítségével készült – a pápának nincs ilyen ruhadarabja, és ha lenne is, akkor sem viselhetné nyilvánosan, a megjelenését komoly protokoll szabályozza. Mivel azonban Ferenc pápa amúgy is megérdemelten népszerű, a képhamisításnak nem volt negatív hatása, valószínűleg nem is ártó szándékkal hozták létre a képet, inkább a Midjourney képességeit tesztelhette valaki.

A második eset már sokkal komolyabb. Mint a Lakmusz* írja:

„Hétfő óta több ezren osztották meg a közösségi médiában azt a képet, amelyen Vlagyimir Putyin orosz elnök féltérdre ereszkedve csókol kezet Hszi Csin-Ping kínai államfőnek – a képről azonban gyorsan kiderült, hogy nem valós helyzetet ábrázol.

Hszi aznap, március 20-án érkezett egy háromnapos látogatásra Moszkvába. A találkozó az ukrajnai háború miatt is kiemelt geopolitikai jelentőséggel bírt, és előzetes spekulációkra adott okot Kína és Oroszország erősödő szövetségéről és élénkülő gazdasági kapcsolatairól. Az orosz energiaszektort érintő európai szankciók tükrében ugyanis Oroszország arra kényszerül, hogy új piacok felé irányítsa exportját, amelynek egyik potenciális felvevője a szomszédos Kína lehet.

A viziten a kínai pártfőtitkár kedves barátjának szólította Putyint és több gesztust is tett, amellyel elismerte a két ország közös eredményeit. A Twitteren azonban hétfő délután egy olyan kép kezdett terjedni, amely jelentősen eltúlozza a két államfő közeledését. A szokatlan felvételen az orosz elnök rá nem jellemző módon és minden protokollt felrúgva alázkodik meg külföldi partnere előtt: Hszi kezét szorongatja, miközben előtte térdepel.”

Aki csak kicsit is jártas akár a diplomácia, akár a kínai kultúra, akár a közösségi oldalak és a képalkotó MI-k világában, azonnal tudta, hogy mémről, kreált képről van szó, melyet azonban nem a hagyományos technikával hoztak létre. Aki azonban nem különösebben járatos ezeken a területeken, az bizony elhitte, hogy Vlagyimir Putyin térden állva csókolt kezet Hszi Csin-pingnek, hálából valamiért. Később a fotó mutálódott, léteznek már olyan változatai is, melyeken egyéb politikusok is feltűnnek, ami érthető, hiszen nagyon hatásos mémről van szó.

A képet főként az tette sokak körében „hitelessé”, hogy „nem tűnt Photoshopnak”, de az a helyzet, hogy a felbontás egységes mivolta még nem jelenti azt, hogy a kép eredeti (bár ha képen belül változik, az biztos jele a hamisításnak). Itt – a Lakmusz elemzése szerint – MI által készített művet látunk, amin az alaposabb vizsgálat, a kép nagyítási hibák, „glitchek” tömegét mutatja ki. Már csak az a kérdés, honnan származik a mém, de ez nehezen utolérhető, esetleg a Kyiv Post ukrán lap közreműködője, Jason Jay Smart osztotta meg először tréfából, de ez sem bizonyítható.

A harmadik eset azért súlyos, mert emberi sorsok múlhatnak azon, minek tekintik az orosz hatóságok azt a március 26-án kiszivárgott, állítólag lehallgatott beszélgetést, melynek során Joszif Prigozsin producer és Farhad Akhmedov milliárdos állítólag szidja Vlagyimir Putyint és környezetét, „söpredéknek” és „bűnözőknek” nevezve őket, akik „tönkretettek minket, a gyermekeinket, a jövőjüket, a sorsukat”.

Itt kell megjegyeznünk: Joszif Prigozsin nem azonos a Wagner-csoport tulajdonosával, Jevgenyij Prigozsinnal, nem is rokonok, csak véletlen névazonosságról van szó.

Joszif Prigozsin azonnal hamisítványnak nevezte a hangfelvételt, amelyet egy neurális hálózaton generáltak (bár később hallgatólagosan elismerte a beszélgetés részleges hitelességét) – és nyilatkozatával nagy vitát váltott ki. Vajon képes-e egy mesterséges intelligencia ilyen hihető beszélgetést létrehozni oroszul? És van-e megdönthetetlen bizonyíték arra, hogy a felvétel mégiscsak valódi? Az orosz ellenzéki Meduza megvizsgálta a négy főbb lehetőséget a felvétellel kapcsolatban.**

Először is, a történtek hátteréről tudnunk kell, hogy a párbeszéd 35 perces felvételét már március 7-én közzétették a YouTube-on, de a közvélemény azután figyelt fel rá, hogy a klipet az ukrán 5-ös csatorna március 24-én közzétette. A felvételen hallható hangok hitelességét nem erősítették meg. A Mediazona teljes átiratot készített a beszélgetésről***: mint a kiadvány megjegyezte, a beszélgetőpartnerek 157 alkalommal használták a legtrágárabb orosz szavakat, és sértegették a Kreml tisztviselőit, az orosz katonai vezetést és személyesen Vlagyimir Putyint.

Joszif Prigozsin ellentmondásosan reagált a felvétel közzétételére. Először hamisítványnak nevezte, és azt mondta, hogy a hangfelvételt „neurális hálózat generálhatta”. „Mindenki ismeri a politikai álláspontomat, ez minden interjúban és a nyilvánosság előtt is megnyilvánul” – mondta a producer, aki nyilvánosan támogatja az ukrajnai orosz agressziót és személyesen Putyint.

Később Prigozsin interjút adott a Fontanka című szentpétervári lapnak, amelyben azt mondta, hogy „az emberek magánbeszélgetésben bármiről beszélhetnek”, és „a neurális hálózatok ma már bármilyen csodát lehetővé tesznek”. Ugyanakkor Prigozsin azt állította, hogy nem emlékszik pontosan erre a beszélgetésre Akhmedovval, de rendszeresen kommunikált vele.

A producer második verziója szerint azonban a felvétel nem kizárólag a neurális hálózatok eredménye, hanem „az elhangzott és a generált, de soha ki nem mondott mondatok szimbiózisa”. Ennek ugyan semmi értelme, de védekezésnek megfelel.

Farhad Akhmedov és képviselői a közzététel időpontjában nem kommentálták a felvételt. Az Agentsztvo című kiadvány elismerte, hogy a Prigozsin és Akhmedov közötti beszélgetésre legkésőbb 2023 januárjában került sor. Ezt néhány sor is megerősíti: a beszélgetés során Akhmedov azt mondja, hogy február 15-e után jöhet Moszkvába. A Lenta.ru-val folytatott beszélgetésben Joszif Prigozsin megerősítette, hogy január végéig Dubajban tartózkodott, beleértve „a hangfelvétel feltételezett napját” is.

Mindenesetre az megállapítható, hogy a felvétel összesen négyféle úton keletkezhetett.

Első verzió: a beszélgetést teljes egészében neurális hálózat generálta.

Ezt az álláspontot képviselte Prigozsin, amikor először kommentálta a hangfelvétel közzétételét. Denis Sirjajev, a Denis Sexy IT nevű technológiai telegram-csatorna létrehozója a Meduzával folytatott beszélgetésben hangsúlyozta, hogy a neurális hálózatok még rövid ideig sem képesek ilyen jól utánozni egy valódi ember hangját, nemhogy 35 percen keresztül. Az emberek szavajárását egyelőre még nem képesek utánozni, az algoritmus képes hangot és hangot másolni, de az egyedi beszédjellemzőket nem tudja reprodukálni.

Sirjajev szerint a piacon ma kapható, valósághű hangmásolást lehetővé tevő termékek (például a Prime Voice AI) főként az angol nyelvre vannak kalibrálva, és nincsenek hasonló minőségű orosz megfelelőik. Mint mondta:

„Amikor orosz beszédet próbálunk utánozni, mindig hallható egy jellegzetes fémes csengés a hangban – nagyon feltűnő, hogy ez nem valódi hang. Angolul ez már megkülönböztethetetlen, de oroszul nem lehet ugyanígy megoldani. Tehát AI szempontból ez a beszélgetés biztosan nem deepfake, ebben 100 százalékig biztos vagyok.”

Második verzió: a beszélgetést Prigozsin és Akhmedov valódi, csak máskor és máshol elhangzott mondataiból illesztették össze.

Alekszandr Szadikov, a Meduza podcast stúdió vezető producere is elemezte a beszélgetés hangfelvételét. Értékelése szerint egy ilyen párbeszéd manipulálása és szerkesztése nem valószínű, hogy lehetséges – hihetetlen erőfeszítésbe kerülne. A háttérzajok és más hangok végig hallhatók a felvételen, és a háttér mindig más. A feltehetően Prigozsinra utaló hangsávban egy hang hallható, amely nagyon hasonlít a felesége, Valeria hangjára (ezekben a pillanatokban Prigozsin „Ler”-ként hivatkozik erre a hangra).

Mivel a beszélgetőpartnerek hangja két csatornán – a bal és a jobb csatornán – van rögzítve, könnyen hallható, hogy mi történik az egyes sávokon külön-külön. Az ilyen különböző háttérzajokat hihetetlenül nehéz meghamisítani (vannak megfejthetetlen emberi hangok, amelyek közül néhányat Prigozsin angolul szólít meg, és olyan hangok, amelyek hasonlítanak egy lift vagy gombok nyomkodásának hangjaihoz). Akhmedov sávjában kevesebb ilyen zaj van, de egy ponton valaki női hangon a háttérben megszólítja.

Maga a beszélgetés jellege és az, ahogyan a beszélgetőpartnerek egymással interakcióba lépnek, természetesnek tűnik: szavak és sorok ismétlése, ahogyan szavakat vesznek fel, „hallod?” kérdés (hogy megbizonyosodjanak arról, hogy a beszélgetőpartner hallja). Ezeket a reakciókat nagyon nehéz megtervezni – ez herkulesi feladat.

Néhány ponton hallani, ahogy Prigozsin tompítja a hangját, és igyekszik nem túl hangosan beszélni - ezt teszik azok, akik nem akarják, hogy kívülállók hallják őket a szobában.
Joszif Prigozsin kulcsfontosságú mondatai a kormányhoz, a háborúhoz való viszonyáról és az országban zajló eseményekről alkotott véleményéről a lehető legtermészetesebben hangzanak (és ezek olyan párbeszédtöredékek, amelyekben a beszélgetőpartnerek teljesen hihető módon érintkeznek egymással).

Harmadik verzió: a hangfelvételen színészek beszélnek, akik producert és üzletembert alakítanak. Ez a magyarázat közvetve ellentmond magának Joszif Prigozsin szavainak – ő azt állította, hogy a beszélgetésnek „vannak valódi pillanatai”, miközben a hangfelvételen semmi jele a beszédmodor drasztikus változásának, és nem valószínű, hogy akár a legtehetségesebb színészek is képesek lennének egy ilyen paródiára.

Van azonban egy másik módja is annak, hogy valaki más hangját utánozzák: a csaló felveheti saját hangját, megtartva az áldozat minden jellegzetes szünetét és intonációját, és hangkonvertálást alkalmazhat, amelynek segítségével egy neurális hálózat szerkeszti a hangot, egy másik személy hangját utánozva. Egy generatív neurális hálózatokkal foglalkozó szakértő a Medúzának elmondta, hogy egy ilyen forgatókönyv elméletileg lehetséges, és a felvétel rossz hangminősége segíthet elrejteni a változásokat. Egy neurális hálózat betanításához elegendő a szimulálandó hang egyperces felvétele.

Mindezek alapján a hamis hangfelvétel állítólagos készítőinek legnehezebb feladata nem a hang megváltoztatása, hanem egy hihető forgatókönyv megalkotása, amelyben a hamis Prigozsin és Akhmedov számos, a magánéletükkel kapcsolatos részletről beszélgetnének.

Negyedik verzió: ez egy valódi beszélgetés Prigozsin és Akhmedov között. Ezt főként Luszja Stein, a Pussy Riot egyik tagja és moszkvai önkormányzati képviselő támogatja, aki több olyan részletre is rámutatott, amelyek arra utalhatnak, hogy a felvétel hiteles (vagy éppen tökéletesen megírt).

A beszélgetés elején Prigozsin a Mandarin Hotelt ajánlja Akhmedovnak (valószínűleg a Mandarin Oriental ötcsillagos szállodaláncra utalva). Ezután a „pálmáról” beszélgetnek, ahová Prigozsin a forgalom miatt nem javasolja a kiruccanást. Ez a Palm Jumeirah mesterséges szigete. Prigozsin megerősítette, hogy az Akhmedovval folytatott beszélgetés idején Dubajban tartózkodott. Prigozsin a beszélgetésben megemlít egy bizonyos Szamvelt, aki szintén Dubajban tartózkodik. Valószínűleg Szamvel Karapetjan vállalkozóról van szó – a felesége és lánya közösségi média-fiókjából ítélve mindketten Dubajban voltak január végén. „Zsenik kellenek ahhoz, hogy ennyi árnyalatot kitaláljanak és meghamisítsanak” – zárja Stein. Ilja Ber, a Verified projekt főszerkesztője és a Facebook tényellenőrzője is meg van győződve arról, hogy a beszélgetés „egy csomó olyan részletet tartalmaz, amely egybevág az ellenőrizhető tényekkel”.

Ezzel szemben Alekszej Navalnij munkatársa, Vlagyimir Milov politikus meg van győződve arról, hogy a felvétel hamisítvány, mivel az orosz elit „paranoiás a lehallgatásokkal kapcsolatban”.

Mindenesetre – habár a Meduza más következtetésre jut – a legvalószínűbbnek a harmadik verzió tűnik, már csak azért is, mert volt már ilyesmire példa: két orosz provokátor, bizonyos Vovan és Lexus rendszeresen hívogatják mindenféle felületeken a világpolitika fontosabb szereplőit magukat más politikusoknak kiadva, épp a deepfake-MI-technológiával visszaélve (eljutottak Budapest főpolgármesterétől Justin Trudeau-ig, ez utóbbi eset azért volt különösen figyelemre méltó, mert Greta Thunbergnak adták ki magukat). Arra már nehezebb volna választ adni, mi értelme volt két üzletembert bajba keverni, akik nem tartoznak a leggazdagabbak vagy legbefolyásosabbak közé – talán megint tesztfutást láttunk egy nagyobb akció előzményeként.

Elmondható tehát, hogy a deepfake és az MI házassága teszi (majdnem) tökéletessé a politikai propagandát, és nem ad időt az emberiségnek az adaptációra: viharként zúdul rá.

Meg kell majd szoknunk, hogy nem hihetünk sem a szemünknek, sem a fülünknek, se más embereknek.

Marad az eszünk, abban még bízhatunk.

Legalábbis reméljük.