Kétszázmilliárd szimbólum – a PULI nyelvi modell finomabban tud magyarul, és a specifikus magyar tartalmakat is jobban kezeli
Mit nevezünk pontosan nyelvi modellnek?
– Kétféle alaprendszer létezik: vannak olyan nyelvi modellek, amelyek teljes egészében látják a szöveget, és inkább elemzésre valók. Ha bármelyik szót kitakarom a szövegből, akkor ők képesek megmondani, hogy mi volt ott. Ezt persze őrületes szövegmennyiség megtanulása után teszik. A nyelvi modellek másik típusát generatív mesterséges intelligenciának hívják. Ez azt jelenti, hogy a program minden szövegrészlet után meg tudja mondani, hogy mi a legvalószínűbb következő szó. Tehát ő maga generálja a szöveget. Vannak az első típusba tartozó modelljeink is, ezek voltak az első kísérleteink, mert azt sokkal kisebb gépen is meg lehet csinálni. És két és fél éve, amióta van szuperszámítógépünk, azóta egy generatív nyelvi modellt csinálunk, a PULI-t. Ez olyan, mint a GPT, ugyanazt a logikát követi, de természetesen nem akkora hardvererő van a hátterében. Mert itt elsősorban a hardver erőssége a lényeges, és a nagy amerikai technológiai cégekkel e téren nem lehet versenyezni.
A nyelvi modell valójában egy hatalmas neurális háló, egy olyan rendszer, amely hosszú szövegeket képes intelligens módon kezelni.
Mégis, hogyan lehet összevetni az önök által fejlesztett PULI nyelvi modellt például a legismertebb ChatGPT-vel?
– A nyelvi modellek méretét paraméterszámban szokás megadni. A mostani PULI hétmilliárd paraméteres. Ehhez képest a GPT korábbi, 2-es verziója, amit nem hoztak ki, mert a fejlesztők szerint olyan iszonyú jó volt, hogy nem merték publikussá tenni, az másfél milliárd paraméteres volt. Amit végül az OpenAI publikussá tett, a GPT-3, viszont már 175 milliárd paraméteres. Ebből látszik, hogy milyen hallatlanul gyors a fejlődés e téren.
Bemenő élek
Mit jelent a paraméterszám?
– A paraméter azt jelenti, hogy hány éle van a modell által egyszerre értelmezhető szavakat összekötő hálónak. Ennek az őrületes hálónak minden éle az addigi szósorozat szavai közötti kapcsolatot szimbolizálja. Ahogy egyre több szóból áll a sorozat, egyre nagyobb valószínűséggel meg lehet mondani, hogy mi lesz a következő szó. E valószínűségeket a szavakat összekötő élek súlyai mutatják. Ezeknek a súlyoknak az összességét tekintik a méretnek, tehát tulajdonképpen a paraméter az az élekre ráírt súlyok összessége. Ha ezt a mesterséges neuronhálók nyelvére fordítjuk le, akkor azt látjuk, hogy minden neuronnak van rengeteg bemenő éle, és minden élnek van egy súlya, ami megmondja, hogy a neuron mennyire vegye figyelembe az onnan bejövő információt. Tehát a neurális háló élein levő súlyok a paraméterek, és ezek összege nyilván azt mutatja, hogy mekkora az egész hálózat. A 175 milliárdos paraméterű hálózatot már elképzelni is elég nehéz, de ettől lesz a modell nagyon hatékony. Egyrészt ettől függ, hogy milyen hosszú szósorozatot tudok neki úgy beadni, hogy ő azt még követni tudja. Minél nagyobb a modell, annál nagyobb az esély, hogy akár több ezer szóra visszamenőleg is tud emlékezni.
Az algoritmus matematikája, ami alapján a hálózatok működnek, teljesen világos.
A PULI miben más, mint az ismert modellek? A GPT-hez képest mit tud, mit nem tud?
– Először is tehát kisebb annál, jelenleg hétmilliárd paraméteres. Amit viszont jó tudni, hogy azon nyelvi modellek között, amelyeket nem elsősorban az angolra készítettek, azok között a PULI relatíve nagy. Természetesen a ChatGPT sok más nyelven is működik, nemcsak angolul, de más nyelveken nagyságrendekkel kisebb szövegmennyiséggel tanították be. A magyar ebből a szempontból a 19. legnagyobb nyelv a ChatGPT-ben: 130 millió szónyi folytonos magyar szöveget tanult meg a rendszer. Ez lehet regény, weboldal, bármi, összesen 130 millió, nem ismétlődő szövegből származó szó. Bár ezt nem árulták el, a mi tippünk szerint ez valószínűleg a magyar Wikipédia, mert az körülbelül ekkora. Tehát az abban levő tartalmat megtanulta, és mivel angolul nagyon tud, az egyik nyelven elsajátított tudást a másik nyelven is képes alkalmazni. Ez a magyar szövegmennyiség arra elég, hogy például az alany-állítmányt jól egyezteti, és jó helyre teszi a névelőt, névutót, és egész szép magyar szövegeket tud előállítani. De nem igazán lehet tőle specifikus magyar témákban kérdezni. Tehát kiválóan lehet baseballról beszélgetni vele, akár magyarul is, de Arany János elbeszélő költeményeiről már kevésbé. És ezen a téren a magyar kulturális tartalom területén erősebb a PULI.
Vagyis a PULI egy magyar kontextusra optimalizált nyelvi modell?
– Az a PULI erőssége, hogy bár az összmodell nem annyira komplex, mint a ChatGPT mögött meghúzódó GPT, viszont a magyar tartalom jóval nagyobb benne. Mi eddig több mint 40 milliárd szóból álló szövegkorpuszon tanítottuk, tehát ekkora mennyiségű különböző szöveget gyűjtöttünk össze és tápláltunk belé. A szövegek javarészt a webről származnak, de az Országos Széchényi Könyvtártól kezdve az Akadémiai Könyvtárig sok partnerünk van, akiktől normatív magyar szövegeket kapunk. Folyamatosan gyűjtjük a magyar nyelven írt szövegeket. Ezekből már olyan mennyiségünk van, amiről azt gondoljuk, hogy a PULI nemcsak magyarul tud finomabban, mint a nemzetközi modellek, de a specifikus magyar tartalmakat is jobban kezeli, vagyis a válaszai relevánsabbak, pontosabbak. Ám ez csak a PULI alaprendszere, ami már két éve létezik. Kissé szerencsétlen módon egyébként a PULI-t pont azon a héten jelentettük be, amikor a ChatGPT-t is nyilvánosságra hozták, így annak híre kissé hangosabb volt. Időközben kiderült, hogy a PULI más nyelven is jól tud beszélni, ezért építettünk ezután egy háromnyelvű modellt, amelyben a magyar mellett az angol és a kínai a másik két nyelv. Ez azt jelenti, hogy nemcsak magyarul, de angolul és kínaiul is megszólítható. Hatvanmilliárd szónyi angol szöveget adtunk hozzá, ami a magyarral összemérhető, vagy talán még több is, és körülbelül 100 milliárd szimbólumnyi kínai szöveget is tartalmaz. Így együtt tehát mintegy 200 milliárd szimbólumból álló szövegegyüttesünk van, amiben az euroatlanti, a magyar és a távol-keleti tartalom ugyanolyan jól fellelhető.
Angyalka vagy Cadillac
A nyelvi modellek hatékonyságát az általuk hozzáférhető szövegtest nagysága határozza meg, és nem az, hogy hogyan „gondolkodnak”?
– Az algoritmus matematikája, ami alapján a hálózatok működnek, teljesen világos, és az informatikájuk is minden szakember számára ismert, de mégsem tudjuk, hogy pontosan mi történik bennük. Látjuk a bemenetet, látjuk az eredményt, de nem értjük. Nem én nem értem, hanem a szakma nem érti. Tehát az a furcsa helyzet állt elő ezen a területen, hogy bár a neurális háló működése közismert, de hogy tulajdonképpen hogyan hoz döntéseket, az nem világos. Hasonló helyzetben vagyunk, mint az agykutatók. Ők is tudják, hogy egy adott agyterület miért felelős; ha a műtét közben ingerlik, akkor a beteg üvölt vagy mosolyog, és mindenféle reakciókat kiválthatnak így, de hogy a beteg akkor miért lát rózsaszínű angyalkát vagy egy zöld színű Cadillacet, azt nem lehet tudni. Körülbelül itt tartunk mi is. Egyik oldalról építjük a technológiát, és az eredmény egészen meggyőző, de hogy hogyan jött rá a válaszra a mesterséges intelligencia? Azt bizony nem tudjuk. Azt látjuk, hogy a rendszer tudását a méret befolyásolja. Az OpenAI, a Microsoft vagy a Google hatalmas gépekkel dolgoznak. Ezek olyan nagyok, hogy az ökológiai lábnyomuk, az energiaigényük elképzelhetetlenül nagy. Ha ezekből a számítógépekből lenne a jövőben sok ezer, az biztosan fenntarthatatlan lenne. Tehát nem biztos, hogy a hosszú távú jövő az, hogy extenzíven növeljük ezeket a modelleket. Ezért hozta ki a Meta (a Facebook anyacége) a sokkal kisebb LLaMA (Large Language Model Meta AI – a szerk.) nevű modellt, aminek pont az az érdekessége, hogy egy ekkorka modell is lehet nyelvileg sokkal jobb, mint egy nagyon nagy modell, ha ügyesen van szervezve. Egyébként az utolsó PULI, a PULI Llumix már az LLaMA-ra épül. A világ most megpróbálja utánozni ezt a technikát, hogy intenzív módon fejlesszék a generatív modelleket, ne pedig azzal, hogy kétszeresére, tízszeresére, ötvenszeresére növelik a gépet, mert ez egy idő után egyszerűen már nem működhet.
Mire használható jelenleg a PULI, és milyen perspektívák vannak benne?
– A PULI eredetileg egy alapmodell, és az volt a célunk vele, hogy alapkutatási célokra használjuk, vagyis magának a nyelvi modellnek a működését vizsgáljuk a segítségével. A megjelenése óta eltelt időszakban azonban számos lehetséges alkalmazási területére derült fény. Képes betölteni azt a piaci rést, amit a nagy szolgáltatók webes alkalmazásai nem tudnak. Azokkal az a probléma, hogy amikor én valamit beírok a nagy rendszerekbe, az az információ megjelenik a szolgáltatóknál, akik ezeket az adatokat nyilvánvalóan fölhasználják. Vagyis mi nyolcmilliárdan építjük az OpenAI és a többiek rendszereit. Ez nem szabálytalan, csak azért jó észben tartani. Viszont, ha valakinek érzékeny adata van, azt nem tanácsos ezeknek a rendszereknek elküldeni. Ebbe a résbe lép be a PULI: mi egy olyan alapmodellt fejlesztünk, amelyik lehet, hogy komplexitásában még nem érte el az ismert konkurenseket, ám ez a modell odaadható egy magyarországi szolgáltatónak vagy magyarországi informatikai szereplőnek, aki a saját céljaira tovább tudja tanítani. Például ügyfélszolgálatot működtethet a segítségével, vagy bármilyen intézményi feladatot elláthat, ahol nagy mennyiségű adatot kell kezelni, azt értelmezni kell, összefüggéseket kell találni benne. A felhasználók – lehetnek biztosítók, bankok, hivatalok, bármilyen cégek vagy az államigazgatás – nyilván nem fogják a szenzitív adataikat elküldeni az OpenAI-nak. Ezzel szemben a PULI beépíthető a helyi rendszerekbe. A partnerek érzékeny szövegeit egyébként anonimizálhatjuk is: kicseréljük bennük a neveket, a személyes adatokat. Így a nyelvi szerkezet ugyanaz marad, és a mi PULI-nk ugyanúgy tud belőle tanulni. Őt nem érdekli, hogy konkrétan Kis Jánosról vagy Nagy Lajosról van szó például egy kórházi zárójelentésben, viszont abban a pillanatban, hogy kicseréljük a neveket, az illető adat már nem lesz veszélyben. Mi építettünk egy ilyen anonimizáló eszközt, amelyet át tudunk adni a partnereknek, hogy ők a saját szövegeiken futtassák, és az így létrejött szövegeket adják át a mi rendszerünknek nyelvi tanítás céljából.
A PULI eredetileg egy alapmodell, és az volt a célunk vele, hogy alapkutatási célokra használjuk, vagyis magának a nyelvi modellnek a működését vizsgáljuk a segítségével.
Szándékok híján
A mai PULI alapvetően kutatási eszköz vagy már kereskedelmi termék?
– Nekünk, a HUN-REN Nyelvtudományi Kutatóközpontjának a kutatás az elsődleges feladatunk. Tehát az első célunk, amiért elkezdtük ezt a programot, az volt, hogy lássuk, miért és hogyan működnek ezek a rendszerek. Próbáljuk megérteni, hogy mi történik a fekete dobozon belül, és ebben hatalmas előnyt jelent, hogy a PULI-nál az inputot (a tanításhoz felhasznált szövegek összességét) is látjuk, nem csak az outputot. Ez tehát az alapkutatási funkció. De amikor ezt megcsináltuk, akkor láttuk, hogy a modellünk működik, és „éles” intézményi környezetben is működhet gyakorlati feladatok ellátására. És ezzel kereskedelmi termékké vált, hiszen a partnerek (főként a nagy tömeget kiszolgáló államigazgatási intézmények, cégek) megvásárolhatják, majd akár a segítségünkkel, akár saját magukban továbbhangolhatják. Tehát alapkutatunk, az alapkutatás eredményét viszont üzleti tárggyá tettük, de a továbbhangolt modelleket is segítünk elkészíteni. Ez is kutatás, de már alkalmazott kutatás. Sajnos, korlátozottak a kapacitásaink, és ez a tevékenység nagyon hardverigényes. Így jól át kell gondolnunk, hogy mekkora kapacitást használunk a fejlesztésre, és mennyit az érdeklődő felhasználók kiszolgálására. Ez egy kutatóhelynél nem természetes probléma, mert a rendszerek általában csak házon belül működnek. A PULI-nál viszont az érdeklődés hatalmas: rengetegen ki akarják próbálni – ezt megtehetik a puli.nytud.hu címen –, és már arra is volt példa, hogy egy partner saját használatra megvásárolta tőlünk az alapmodellt.
Az a körülmény, hogy nem igazán értjük ezeknek a modelleknek a tényleges belső működését, sokakat megijeszt. Ők attól félnek, hogy ahogy ezek a mesterségesintelligencia-rendszerek előbb-utóbb beszűrődnek az egész világ rendszereibe, ami általános veszélyhelyzetet teremt. Elképzelhető például, hogy ezek az eszközök olyan fejletté válnak egyszer, hogy öntudatra ébrednek?
– Az öntudatra ébredés veszélyét egyszerűen nem tudom értelmezni. Ezek a rendszerek nem rendelkeznek szándékkal. A szándék mindig a felhasználóé: én adok feladatot, célt, amit aztán az eszköz végrehajt. Tehát attól nem kell félni, hogy ő maga majd egyszer kitalálja, hogy elindítja az atomrakétákat, az viszont előfordulhat, hogy egy gonosz ember a mesterséges intelligencia segítségével fog hozzáférni az indítókódokhoz. Ezért dolgoznak a nagy világcégek azon, hogy minél jobban levédjék a rendszereket, nehogy az őrültek is hozzájuk férjenek. Kétségtelen, hogy nem veszélytelen, ha úgy használjuk ezeket a rendszereket, hogy nem látjuk, mi történik bennük. De abban az értelemben nincs veszély – és még nagyon sokáig nem is lesz –, hogy egy ilyen rendszer nem tudja megnyomni a saját gombját, azaz, hogy emberi parancs nélkül nem jut akarathoz. Ugyanakkor az a veszély már most is megvan, hogy rossz szövegekből tanul, és ezekből rossz következtetéseket von le. Ezeket a szövegeket emberek hozták létre, és manapság már bárki publikálhatja az irományait az interneten. Vannak elképzelések, amelyek hamisak, sőt károsak, és ha a rendszer ezek alapján tanul, akkor félrevezető is tud lenni.
El lehet zárni az öntanuló mesterséges intelligenciától az interneten fellelhető veszélyes vagy hazug tartalmakat?
– Ennél rosszabb a helyzet, mert e nyelvi modellek csupa jó és tényszerű szövegből is tudnak hamis következtetésre jutni: ezt hívják hallucinációnak. Előfordul, hogy ezek a rendszerek nyelvileg tökéletes, ám a világismeretünk szerint hamis eredményre jutnak. A hallucináció nem hiba, csak mi úgy tekintjük, hogy ilyenkor a gép hibázik, és ki kell javítani. De ez az ő „gyári” működése: az ő feladata mindössze az, hogy nyelvileg helyes szöveget állítson elő. Azt, hogy ez a szöveg igaz-e a világban, az más kérdés. Mi, emberek, úgy beszélgetünk egymással, hogy mindannyian ismerjük valamennyire a világot, és elvárjuk, hogy az állításaink több-kevésbé illeszkedjenek a világról őrzött ismereteinkhez. Ha ez nem valósul meg, akkor elkezdünk vitatkozni. Ám a gépnek semmi esélye arra, hogy ilyen szűrést alkalmazzon a saját vélekedésén, mert neki nincs világmodellje, tehát nincs mivel összemérnie magát. Egy gép nem képes felmérni, hogy mennyire értelmes vajon az emberek számára a szövege. De ettől még jól működik, hiszen ő egy nyelvmodell, nem világmodell.
…e nyelvi modellek csupa jó és tényszerű szövegből is tudnak hamis következtetésre jutni: ezt hívják hallucinációnak.
Analógiaként azt mondanám: ha egy program lefut – és nincs hardverhiba –, akkor azt csinálja, amit mi lehetővé tettünk számára, hiszen képtelen nem követni a programkódokat. Ha a működése eredménye mégis téves, akkor az alkotó emberben kell keresni a hibát. •
Címlapkép: Depositphotos/Milla_Sh