Algoritmul care a învățat "Pong" acum excelent la "Flappy Bird", încă unic

$config[ads_kvadrat] not found

Viata ca un algoritm

Viata ca un algoritm
Anonim

Îmbunătățirea pe o metodă de învățare profundă a fost pionieră pentru pong, Space Invaders, și alte jocuri Atari, studentul de la Universitatea Stanford, Kevin Chen, a creat un algoritm care este destul de bun la clasicul side-scroller 2014 Flappy Bird. Chen a folosit un concept cunoscut sub numele de "q-learning", în care un agent își propune să-și îmbunătățească scorul de recompensă cu fiecare iterație de joc, pentru a perfecționa un joc aproape imposibil și imposibil de dependență.

Chen a creat un sistem în care algoritmul său a fost optimizat pentru a căuta trei recompense: o mică recompensă pozitivă pentru fiecare cadru pe care a rămas în viață, o mare răsplată pentru trecerea printr-o țeavă și o recompensă la fel de mare (dar negativă) pentru moarte. Astfel, motivat, așa-numita rețea deep-q poate depăși oamenii, conform raportului Chen a scris: "Am reușit să jucăm cu succes jocul Flappy Bird prin învățarea directă de la pixeli și scor, obținând rezultate super-umane."

Hârtia Atari originală, publicată în 2015 în Natură, a venit de la compania deținută de Google DeepMind (acum renumită pentru stăpânirea vechii game chineze de joc Go). Achiziția DeepMind a fost un progres prin faptul că a obținut cel puțin informație vizuală sau pixel și, cu o contribuție minimă, a reușit să maximizeze recompensele. Un astfel de sistem de recompensă a fost asemănător cu răspunsul dopaminergic al creierului, doar simplificat.

Nu este prima dată când un algoritm a cucerit o pasăre înfundată: O clasă anterioară a studenților de la Universitatea Stanford a creat un program care, atunci când a fost instruit peste noapte, scorul său sa îmbunătățit de la 0 conducte la 1.600.

$config[ads_kvadrat] not found