Generic selectors
Csak
Keresés címben
Keresés a tartalomban
Keresés hírekben
Keresés cikkekben
Keresés a fórum hozzászólások között
Keresés a fórum témákban
Kategória szerinti szűrés
Classic PlayStation
Comix
E3
EA Play Live 2020
EA Play Live 2021
Esemény
Future Games Show: Gamescom 2020
Future Games Show: Spring Showcase
Gamescom
Gamescom 2020
Gamescom 2020 Opening Night Live
Gamescom 2021
Gamescom 2021 Opening Night Live
Heti hírösszefoglaló
Hírek
Komment
Nacon Connect
New Game+ Expo
Nyereményjáték
PlayStation 5 Showcase
PlayStation Indies
PlayStation Network
PlayStation.Community
Podcast
PS5 Future of Gaming
PS5 Tudtad?
PSC Gyorsszavazás
State of Play 2020. augusztus 6.
State of Play 2020. február 25.
Stream
Summer Game Fest
Szavazás
Techno
The Game Awards
The Game Awards 2020
Tokyo Game Show
Tokyo Game Show 2020 Online
Tokyo Game Show 2021
Ubisoft Forward

Gran Turismo Sophy – Így működik a profi sofőröket verő mesterséges intelligencia

Gép ellen, új szinten.

A Polyphony Digital még a Gran Turismo 7 megjelenése előtt leplezte le új mesterséges intelligenciáját (MI), a Gran Turismo Sophyt, amit a Sony AI 25 fős csapatával együttműködve hoztak létre. Az MI később bekerül majd a játékba egy frissítéssel, így érdekes lehet kicsit körbejárni, hogy pontosan mit tud Sophy, illetve miként dolgoztak rajta. A csapat publikálta kutatását a Nature magazin februári számában, magát az MI-t pedig egy élő tokiói eseményen tesztelték, ahol lehengerlő sikert aratott több profi Gran Turismo sofőr felett. A GT Planet egy izgalmas cikkben elemezte az eredményeket, amellett, hogy megszólaltatta magát Kazunori Yamauchit, a széria alkotóját és Peter Wurmant, a Sony AI America rendezőjét. Ez az írás annak a fordítása, egyéb infókkal kiegészítve.

GT Sophy 3D-s pontok által meghatározott szegmensekként “látja” előre a pályát

Sophy – mint „játékos” – statikus térképként látja a Gran Turismo virtuális környezetét, és az ábrán látható bal, jobb és középső vonalak 3D-s pontokként vannak definiálva. A Sophy előtti pálya 60 egyenlő távolságra lévő szegmensre van felosztva, amik hosszát a kocsi gyorsasága alapján számolják ki dinamikusan. Mindegyik szegmens a következő, körülbelül 6 másodpercben megtett várható utat képviseli egy adott pillanatban. Az MI hozzáfér információkhoz azzal kapcsolatban is, hogy mit csinál a jármű a környezetben: ilyenek például a háromdimenziós sebesség, a szögsebesség, a gyorsulás, a kerekek terhelése és a kerékcsúszási szögek. Észleli az autó haladását a pályán, a felület dőlésszögét és a kocsi orientációját a pálya középső vonalához és pereméhez képest. A játék értesíti Sophyt, ha az autó érintkezik – vagy elhagyja – a játék alapértelmezett pályahatárait.

A vezérlés tekintetében Sophy csak a gyorsuláshoz, a fékezéshez és a bal-jobb kormányzási bemenetekhez fér hozzá. Ezeket 10Hz-es aránnyal tudja módosítani, tehát kb. 100 milliszekundumonként. Nincs hozzáférése a sebváltáshoz, a kerékcsúszás szabályozásához vagy bármely más olyan paraméterhez, amik általában elérhetők az emberi játékosok számára. Sophy megkapja ezeket a környezeti változókat és limitált mértékű bemeneti utasításokat, majd munkához lát. A fejlett „gépi tanulási” algoritmusokkal újra és újra végigmegy a pályán. „Jutalmat” – matematikai szempontból – akkor kap, ha a lehető legrövidebb idő alatt ér körbe, „büntetést” pedig, ha érintkezik a falakkal vagy más autókkal, vagy ha kivezet a pályahatáron. Ezt a kiképzőalgoritmust “Quantile-Regression Soft Actor-Critic (QR-SAC)” névvel ruházták fel, és képes olyan módon közvetíteni az információkat, amiket megért.

Sophy több tízezer virtuális kört futott, kiismerve azokat a technikákat, amikkel a leggyorsabban tud végighaladni a pályán – hasonlóan egy emberi sofőrhöz

„GT Sophyt megerősítéses tanulással képeztük ki” – mondta Peter Wurman, a Sony AI America rendezője. „Gyakorlatilag megjutalmaztuk, ha egyenesen haladt a pályán vagy megelőzött egy autót, és büntettük, ha letért a pályáról vagy nekiment másoknak. Annak érdekében, hogy megtanulja, miként kell viselkedni versenyhelyzetekben, különböző szituációkba helyeztük sokféle ellenféllel az MI-t. Kellő gyakorlással, folytonos próbálkozással és hibázással képes volt megtanulni, miként reagáljon, ha más kocsik is vannak körülötte. Nagyon finom a határ a között, hogy elég agresszív legyen valaki, hogy tartsa saját versenyvonalát, és a között, hogy túl agresszív legyen, ami balesetekhez és büntetésekhez vezet. A legnehezebb az volt, hogy rájöjjünk, miként közvetítsük ezt az információt a neurális hálózatoknak a lehető leghatékonyabb módon. Például, a hibázással és próbálkozással rájöttünk, hogy a pálya következő 6 másodpercének kódolása és továbbítása az MI-nek elég információ GT Sophynak ahhoz, hogy dönteni tudjon a sávokról. A másik nagy kihívás a jutalmazó és büntető jelzések egyensúlyozása volt, hogy olyan versenyző legyen, aki agresszív, de fair módon játszik.”

Sophy mindezt valós időben végzi el, valódi PS4-en, ami a Gran Turismo Sport egy különleges verzióját futtatja, miközben jelenti a szükséges helyzeti adatokat és hálózati csatlakozáson keresztül fogad vezérlési inputokat. A Sophy kódját a szerverek működtetik, amik hálózaton kommunikálnak a PlayStationökkel. A folyamat felgyorsításához Sophy egyszerre 20 autót vezényel. Az eredményeket komplex szerverekbe táplálják, amik megfelelő kaliberű videokártyákkal, NVIDIA V100 vagy A100 chipekkel vannak felszerelve, amiket úgy terveztek, hogy fel tudják dolgozni a mesterséges intelligenciát és a gépi tanulásos adatokat. Érdemes kiemelni, hogy ez a számítástechnikai teljesítmény csak Sophy „létrehozásához” szükséges, nem a futtatásához. A gépi tanulási folyamat idővel „modelleket” eredményez, amik már szerényebb hardvereken is kivitelezhetőek. „Sophy tanulását párhuzamosan dolgozzák fel számítógépes erőforrások a felhőben, de ha egy már megtanult hálózatot futtatsz, akkor egy lokális PS5 több, mint elegendő” – részletezte Kazunori Yamauchi, a Gran Turismo széria vezetője. „A számítástechnikai teljesítmények aszimmetriája általános jellemzője a neurális hálózatoknak.”

Így viszonyul Sophy útvonala a legjobb emberi sofőrökéhez

Sophyt három specifikus készségre tanították: az autóvezérlésre, a versenytaktikákra és a versenyzési etikettre. Először azt kellett elsajátítania, hogy miként tud egyedül körbevezetni a pályán: kiképezték a „nagysebességű cselekedetek” lehetséges végkimeneteleire, hogy száguldozás közben is be tudjon venni kanyarokat. Az MI több mint ezer virtualizált PS4-en futott a Sony Interactive Entertainment specializált felhőfelületén, így a kutatók több száz kísérletet tudtak egyszerre végrehajtani, hogy Sophy annyira gyorsan tanuljon, amennyire csak lehet: ezeknél különféle helyzetekben, különböző variációkban, egyszerre száguldozhatott. Michael Spranger, a Sony AI egyik vezetője arról beszélt, hogy egy ilyen MI körülbelül egy nap alatt jut el a nulláról arra, hogy körbe tudjon vezetni egy specifikus pályán. Utána kb. két nap bejutni az emberi sofőrök felső 5 százaléka közé, majd 10-12 nap, hogy elérjen a lehető legjobbak szintjére. Addigra Sophy kb. 300 ezer kilométert vezet le. Yamauchi kitért arra, hogy ő – mivel versenyző – megtanult bizonyos technikákat a gyors vezetéshez. Sophy azonban máshogy teszi, és szerinte a megjelenése után módosítani kell a „tankönyveket” is. Amikor Sophy egy kanyarhoz ér, fordul és fékez is. Általában a terhelés ilyenkor az elülső két kereken van, de ennél az MI-nél hármon van rajta: az elülső kettőn és az egyik hátsón. A kocsi így fordulás közben tud fékezni, amire emberi lény nem lenne alkalmas. Emellett Sophy olyan specializált vezetési technikákat is elsajátított, amiket a Polyphony Digital csak olyan elit versenyzőknél látott, mint például Sebastian Vettel és Lewis Hamilton.

A taktikák megismerése már komplexebb folyamat, amit egy „vegyes helyzettel” értek el: ebben voltak kézzel kalibrált versenyszituációk, amiket specializált ellenfelek elleni futamokban lehet tapasztalni. Sophy így tipikus versenyélményekkel találkozhatott, és megtanulhatta, miként járjon el a zsúfolt startoknál, hogyan előzzön hatékonyan, vagy miként védje pozícióját, ha őt akarják előzni. A legnehezebb pedig az etikett kiismerése volt, ugyanis ez az embereknél is komoly kihívást jelent: annak a felismerése, hogy versenyzés közben mi van rendben, és mi nem. A kutatók Sophy jutalomfunkcióiba a versenyzés „írt és íratlan szabályait” is kódolni tudták, és ügyeltek arra, hogy ne legyen túl agresszív, de túl passzív sem. Képességei demonstrációjaként emberek versenyezhetett Tokióban tavaly, úgy, hogy ott volt Takuma Miyazono, aki a 14 millió Gran Turismo Sport sofőr közül a legjobb. Júliusban, az első megmérettetésen, bár több versenyt GT Sophy nyert, de az összesített pontszám szerint az emberek kerültek ki győztesként. Októberben azonban már lepipálta őket: első és második helyezett lett mindhárom versenyben, a legjobb köridőt futotta mindegyiknél, és kétszer annyi pontot szerzett csapatként, mint az emberek.

Példák szituációkra, amikbe helyezték Sophyt, hogy megtanuljon más játékosokkal és ellenfelekkel versenyezni

A játékfejlesztők elég ritkán nyilatkoznak a versenyzős játékok mesterséges intelligenciájáról, így kifejezetten pozitív, hogy Yamauchi nyíltan beszélt erről a GT Planetnek. A gépi tanulási folyamat Sophynak több viselkedési szabályt biztosít, mint amennyit emberi programozók ki tudnának ötölni – de ennek a stratégiának megvannak a saját hátrányai is. „Az MI eddig szabályalapú volt, így gyakorlatilag egy „ha-akkor” programként futott” – részletezte Yamauchi. „Mindegy azonban, hogy mennyi ilyen szabállyal bővítjük, képtelen kezelni a meghatározottakon túli feltételeket és környezeteket. Sophy ezzel szemben masszív mennyiségű implicit szabályt generál saját hálózati rétegén belül, amiket az emberek képtelenek kezelni. Emiatt képes különböző feltételekhez és környezetekhez alkalmazkodni, de mivel ezek implicitek, azt jelenti, hogy nem lehet egy „specifikus viselkedést” megtaníttatni vele, ami könnyen megy a szabályalapú MI-knél.”

Sophy valószínűleg három alakban jelenhet meg majd a játékos előtt. Tanárként a vezetésre képezheti ki a játékosokat, tanulóként elsajátíthatja a sportszerűséget tőlük, barátként pedig versenyezni lehet majd vele. Még egy B-Spec mód is elképzelhető Yamauchi részéről, ahol a játékos „menedzseli” Sophyt, mint sofőrt. Emellett maga a játék eszközként is használhatja az MI-t: Yamauchi szerint elvi szinten lehet alkalmazni a teljesítmény-kiegyensúlyozáshoz, például a különböző kocsik köridejének elrendezéséhez. Mivel ez a balansz azonban többről szól, nem lehetne csak Sophyra bízni – de kétségtelenül tud segíteni.

Az MI egyébként folyamatosan tanul. Jelen verziója specifikus pályákat ismer konkrét feltételek mellett, de a csapat szerint a technológia képes lesz alkalmazkodni is. Az is fontos kérdés, hogy képes-e a kevésbé képzett emberi versenyzőkhöz igazodni, elvégre a világ legjobbjait már legyőzte. Wurman szerint Sophy konkrétan azt is meg tudja oldani, hogy olyan legyen, mint egy kezdő sofőr: és nem csak abban merül ez ki, hogy mesterségesen lassít. A Sony AI célja az volt, hogy a lehető leggyorsabb és legversenyképesebb MI-t hozzák létre, amire építve egy általánosabban bevethető eszközt fejleszthetnek ki, hogy minél több ember számára legyen elérhető a játék. „A célunk az volt, hogy megmutassuk, képesek vagyunk egy olyan versenyzőt alkotni, aki a világ legjobb játékosaival képes versenyezni. Végső célunk pedig az, hogy mindenféle izgalmas élményt biztosítson a játékosoknak” – mondta Wurman.

Az még egyelőre nem ismert, hogy mikor kamatoztatja tudását Sophy a Gran Turismo 7-ben, de egyértelmű, hogy izgalmas, magán a játékon túlmutató technológiáról van szó, amit különböző egyéb módon is felhasználhatnak majd, akár más videojátékokban, akár teljesen más iparágakban.

Hozzászólás