Hogyan működik a Chat (nyelvi modell) AI?

Vannak, akik azt gondolják (nem véletlenül), hogy a mesterséges intelligencia „érti”, amit mondunk, de valójában nem igazán "érti", hanem kicsit más a helyzet. Ez igazából csak illúzió, de attól igazán meggyőző ... 😉

A Chat AI szöveget (promptot) úgy dolgoz fel, hogy azt apró darabokra, úgynevezett tokenekre bontja, amit már említettem is előző posztomban, hisz fizetős AI-nál is sokszor ez szerint számláz. Egy token ugye lehet egy szó, egy szó része vagy akár egy írásjel.

Például:

  • „kutya” → [„kutya”]
  • „kutyák” → [„kutya”, „k”]

  • rnrn

  • „Hello, világ!” → [„Hello”, „,”, „világ”, „!”]

Amikor kérdést teszünk fel, az AI "megnézi", vagy beolvassa, milyen minták fordultak elő sokszor a tanulás során és ezek alapján megjósolja a következő legvalószínűbb tokent. Ez ismétlődik újra és újra, amíg kész nem lesz a válasz.

👉 Példa:

  • Kérdés: „Mi a fővárosa Magyarországnak?”

  • Az AI így gondolkodik (nagyon leegyszerűsítve): „A minta szerint a ’Magyarország fővárosa’ után a legvalószínűbb token a ’Budapest'.”

  • Válasz: „Budapest.”

Tehát a Chat AI nem emberi módon „tud”, hanem statisztikai minták (mintha egy nagy könyvtárat képzelnénk el, amelyet ráadásul bővít is, miközben az emberek használják) alapján építi fel a válaszait – de olyan ügyesen, hogy tényleg beszélgetésnek tűnik és lassan már bele is tudunk feledkezni egy-egy "beszélgetésbe", vagy munka közben egy egy munkafolyamatba "vele".

Mindenesetre az "élethű" szimuláció ellenére ez csak látszat, sőt a már előző posztjaimban kicsit említett offline AI-k némelyike (ami alap tudással rendelkezik) akár csak pár gigabyte és máris működik a gépeden, ha jó videókártyád van, tehát valójában nem egy nagyon bonyolult technológiáról van szó, inkább az adatmennyiség, ami mögötte van az lenyűgöző. Újabban pedig már a szerzői jogot is figyelembe veszi az AI, szinte mindig írja a forrást, ha máshonnan idéz, vagy olvas ki adatokat, így már ott tartunk, hogy sokan nem is a Google-ben keresnek rá valamire, ami érdekli őket, hanem valamelyik AI-t hívják segítségül. :)

Na de a szerzői jogokról majd egy másik posztomban... 💡