Szele Tamás: A Nagy Visszacsatolás

2023 a mesterséges intelligencia éve volt, ez kétségbevonhatatlan, és mindenki arra számít, hogy 2024-ben is folytatódik az MI szárnyalása. Vagy nem: elképzelhető, hogy megtörik a merész pályaív, ugyanis bizonyos jelek arra mutatnak, hogy a nagy nyelvi modellek saját csapdájukba eshetnek, legalábbis Abeba Birhane társadalomtudós szerint, aki ezt a WIRED hasábjain* fejtette ki.

A baj az örökmozgóval van, kérem. Semmi sem táplálkozhat saját magából, a kígyó, ha tulajdon farkát kezdi enni, végül saját magát emészti fel, ami lehetetlenség. Ezért nem táplálkoznak a kígyók ilyen módon. Ugyanígy: senki sem oktathatja saját magát, mert ezen az úton nem fog többet megtudni, mint amennyit már úgyis tud, tehát ostoba marad.

2022 áprilisában, amikor megjelent a Dall-E, a szövegből képet készítő vizuális-nyelvi modell, állítólag az első három hónapban több mint egymillió felhasználót vonzott. Ezt követte 2023 januárjában a ChatGPT, amely állítólag már két hónappal a bevezetés után elérte a 100 millió aktív havi felhasználót. Mindkettő figyelemre méltó momentum a generatív mesterséges intelligencia fejlődésében, ami viszont a mesterséges intelligencia által generált tartalmak robbanásszerű növekedését hozta a világhálón. A rossz hír az, hogy 2024-ben ez azt is jelenti, miszerint a mesterséges intelligenciamodellekbe kódolt, koholt, értelmetlen információk, félretájékoztatás és dezinformáció robbanásszerű terjedését, valamint a társadalmi negatív sztereotípiák súlyosbodását is láthatjuk majd.

A mesterséges intelligencia forradalmát nem valamilyen közelmúltbeli elméleti áttörés serkentette – a mesterséges neurális hálózatok alapjául szolgáló alapmunkák nagy része már évtizedek óta rendelkezésre áll –, hanem a hatalmas adathalmazok „hozzáférhetősége”. Ideális esetben egy mesterséges intelligencia-modell egy adott jelenséget – legyen az emberi nyelv, megismerés vagy a vizuális világ – úgy ragad meg, hogy a lehető legjobban reprezentálja a valós jelenséget.

Például ahhoz, hogy egy nagy nyelvi modell (LLM) emberihez hasonló szöveget tudjon generálni, fontos, hogy hatalmas mennyiségű olyan adatot kapjon, amely valahogyan reprezentálja az emberi nyelvet, interakciót és kommunikációt. Az az általános meggyőződés, hogy minél nagyobb az adathalmaz, annál jobban megragadja az emberi ügyeket, azok minden szépségével, rútságával, sőt kegyetlenségével együtt. Olyan korszakban élünk, amelyet a modellek, adathalmazok és GPU-k méretnövelésének megszállottsága határoz meg. A jelenlegi LLM-ek például a trillió paraméteres gépi tanulási modellek korszakába léptek, ami azt jelenti, hogy milliárdos méretű adathalmazokra van szükségük. Hol találunk ilyet? A világhálón.

Ezek a webről származó adatok feltételezhetően az emberi kommunikáció és interakció „alapállapotát” rögzítik, egy olyan közvetítő anyagot, amely alapján a nyelvet modellezni lehet. Bár különböző kutatók mostanra kimutatták, hogy az online adathalmazok gyakran rossz minőségűek, hajlamosak a negatív sztereotípiákat erősíteni, és olyan problémás dolgokat tartalmaznak, mint a faji előítéletek és a gyűlöletbeszéd a marginalizált csoportokkal kapcsolatban, ez nem akadályozta meg a nagy MI-cégeket abban, hogy ilyen adatokat használjanak a méretnövelési versenyben.

A generatív mesterséges intelligenciának ez a problémája hamarosan sokkal súlyosabbá válik. Ahelyett, hogy a bevitt adatok alapján objektív módon ábrázolnák a társadalom világát, ezek a modellek társadalmi sztereotípiákat kódolnak és erősítenek fel. A legújabb munkák azt mutatják, hogy a generatív modellek kódolják és reprodukálják a rasszista és diszkriminatív hozzáállást a történelmileg marginalizált identitásokkal, kultúrákkal és nyelvekkel szemben.

Nehéz, ha nem lehetetlen – még a legmodernebb detektáló eszközökkel is – biztosan tudni, hogy jelenleg mennyi szöveg-, kép-, hang- és videoadat keletkezik, és milyen ütemben. A Stanford Egyetem kutatói, Hans Hanley és Zakir Durumeric becslése szerint 2022. január 1. és 2023. március 31. között 68 százalékkal nőtt a Redditre feltöltött szintetikus cikkek száma, és 131 százalékkal nőtt a dezinformációs hírek mennyisége. A Boomy, egy online zenegenerátor cég azt állítja, hogy eddig 14,5 millió zeneszámot (vagyis az összes, eddig rögzített zenék 14 százalékát) generált. Az Nvidia 2021-ben azt jósolta, hogy 2030-ra több szintetikus adat lesz az MI-modellekben, mint valós adat. Egy biztos: a webet elárasztják a szintetikusan generált adatok.

Az aggasztó az, hogy ezt a hatalmas mennyiségű generatív MI-terméket viszont a jövőbeli generatív MI-modellek képzési anyagaként fogják használni. Ennek eredményeképpen 2024-ben a generatív modellek képzési anyagának igen jelentős részét a generatív modellekből előállított szintetikus adatok teszik majd ki. Hamarosan egy olyan rekurzív hurokba kerülünk, ahol a mesterséges intelligencia-modelleket kizárólag a mesterséges intelligencia-modellek által előállított szintetikus adatokkal fogjuk kiképezni. Ezek nagy része sztereotípiákkal lesz szennyezett, amelyek tovább erősítik a történelmi és társadalmi egyenlőtlenségeket. Sajnos ezek lesznek azok az adatok is, amelyeket generatív modellek képzésére fogunk használni, amelyeket olyan nagy jelentőségű ágazatokban alkalmazunk majd, mint az orvostudomány, a terápia, az oktatás és a jog. Ennek katasztrofális következményeivel még meg kell küzdenünk. 2024-re a generatív mesterséges intelligencia tartalomrobbanása, amelyet most olyan lenyűgözőnek találunk, egy hatalmas mérgező információs szemétteleppé válik.

Összefoglalva: a probléma a visszacsatolással van. Mivel az MI-k fáradhatatlanul és állandóan termelik a tartalmakat, inkább előbb, mint utóbb, de eljutunk oda, hogy az összes rendelkezésünkre álló információ nagyobb része már az ő termékük lesz. Az első MI-ket még emberi információkkal oktattuk, úgy-ahogy, beléjük csúszott sok olyasmi is, amit ki kellett volna hagyni, a második generációt már az első MI-k termékein képzik majd, így visszatöltjük beléjük azt, amit már először is hiba volt feltölteni, ez felerősíti az őshibát, és így marad MI-k nemzedékein át. Tulajdonképpen ez egy informatikai oszcillátor, de nevezhetjük végtelen ciklusnak is. A hibák a generációk során egyre erősödnek, míg meg nem bolondul teljesen az egész miskulancia és fejjel nem megy a falnak.

Már, ha szerencsénk van, és nem minket öklel fel. Van megoldás? Lenne, csak lehet, hogy senki sem fogja alkalmazni, mert drága. Újra kéne indítani az összes MI-t, újraképezni, mégpedig etikai szempontból megfelelő, alaposan megszűrt tartalmak segítségével (bár még akkor sem lehetünk biztosak abban, hogy amit a mostani eszünkkel helyesnek tartunk, nem okoz-e gondokat pár száz év múlva), és akkor talán elkerülhetnénk, de legalábbis elodázhatnánk az összeomlást.

A jelenlegi állapotok szerint viszont már az idei év folyamán jöhet a Nagy Krach. A kígyó a farkába harap, a Nagy Visszacsatolás létrejön és végleg megbolondulhat a világ.

*Synthetic Data Is a Dangerous Teacher