Cum DeepMind a dezvoltat un A.I. Asta poate omagia oamenii

How computers are learning to be creative | Blaise Agüera y Arcas

How computers are learning to be creative | Blaise Agüera y Arcas

Cuprins:

Anonim

Computerele ne-au lovit la șah, timp de vreo douăzeci de ani, de astea noastre umane fragile. Prima dată când sa întâmplat acest lucru a fost în 1996, când IBM Deep Blue a reușit să preia campionul mondial Gary Kasperov. Dar un nou studiu al lui A.I. outfit DeepMind aruncă o lumină asupra cât de limitată a fost victoria timpurie.

Pentru unul, Kasperov a revenit înapoi, câștigând trei jocuri și tragând de două ori într-un joc playoff de șase, pe un jucător vechi Știri de zi cu zi raport.

Dar, mult mai important, spune cercetătorul DeepMind, Julian Schrittwieser Invers, aplicații precum Deep Blue au fost programate manual. Acest lucru înseamnă că oamenii au trebuit să învețe A.I. tot ce trebuia să știe despre cum să se ocupe de orice contingență imaginabilă. Cu alte cuvinte, ar putea fi vreodată la fel de bun ca și programarea oamenilor. Și în timp ce Deep Blue era în mod evident capabil să ajungă destul de bine la șah; dă-i un alt joc asemănător cu Go și ar fi fost fără cusur.

Alpha Zero este complet diferit. Într-un nou studiu publicat astăzi în jurnal Ştiinţă, autorii dezvăluie modul în care au fost capabili să nu le învețe doar pe Alpha Zero cum să învingă oamenii la șah, ci cum să-i învețe pe Alpha Zero cum să se învață pentru a stăpâni mai multe jocuri.

Cum să predați A.I. Să se învețe

Alpha Zero a fost dezvoltat folosind o tehnică numită învățare profundă de întărire. În esență, aceasta implică predarea A.I. ceva foarte simplu, cum ar fi regulile de bază ale șahului, și apoi să faci acel lucru simplu mereu și repede până când învață lucruri mai complicate și mai interesante cum ar fi strategii și tehnici.

"În mod tradițional … oamenii își vor lua cunoștințele despre joc și vor încerca să-l codifice în reguli", spune Schrittwieser, care lucrează la Alpha Zero timp de aproape patru ani. "Abordarea noastră este că inițializăm aleatoriu, apoi lăsăm să se joace jocuri împotriva sa, iar din acele jocuri în sine poate învăța ce strategii funcționează".

Tot ce primește Alpha Zero sunt regulile de bază și, de acolo, învață cum să câștige jucând. Potrivit noilor descoperiri, au fost necesare doar nouă ore pentru ca Alpha Zero să conducă șahul, 12 ore pentru a stăpâni pe Shogi și aproximativ 13 zile pentru a-și stăpâni calitățile. Pentru că se joacă în sine, este în mod esențial auto-predat. A fost făcută carne de vită a tuturor campionilor mondiali algoritmi ghidați de om, învingând campionul mondial de 2017 în Shogi 91 la sută din timp.

"Acesta poate descoperi în mod independent cunoștințe interesante despre joc", spune Schrittwieser. "Aceasta conduce la programe care se joacă mai asemănătoare oamenilor".

Deși stilul său este uman și creativ, este, de asemenea, probabil optim, spune el, suficient, astfel încât Alpha Zero ar trebui să poată domina în aproape orice joc în care are acces la toate informațiile disponibile. De fapt, Alpha Zero este atât de sofisticat încât ar putea fi necesar să ne mutăm într-o clasă de jocuri cu totul diferită pentru a menține limitele modului în care A.I. rezolvă probleme.

De ce Alpa Zero este atât de bună

A.I. cercetatorii iubesc folosirea acestor jocuri drept motive de testare pentru forme tot mai sofisticate de algoritmi din cateva motive. Ele sunt elegante și oamenii le joacă de-a lungul a sute de ani, pentru unul, ceea ce înseamnă că ai multe provocări potențiale pentru a testa algoritmul tău. Dar ele sunt, de asemenea, complicate și complicate, ceea ce înseamnă că ele pot servi ca piatră de temelie la A.I. care poate rezolva problemele din lumea reală. Schrittwieser spune că următoarea zonă de cercetare creează un algoritm ca Alpha Zero, care poate lua decizii optime cu informații imperfecte.

"În toate aceste jocuri, știi tot ce se întâmplă", spune el. "În lumea reală, ați putea cunoaște doar o parte din informație. S-ar putea să știți propriile cărți, dar nu știți adversarul dvs., aveți informații parțiale."

Există încă câteva jocuri de noroc capabile să ofere algoritmilor precum Alpha Zero și acest tip de provocare - Schrittwieser a menționat Stratego, în care jucătorii își ascund mișcările unul de celălalt - și Starcraft, un alt domeniu de interes pentru cercetătorii de la DeepMind.

"Vrem să facem problemele pe care le abordăm din ce în ce mai complexe", spune el. "Dar este întotdeauna o dimensiune la un moment dat."

În același timp, noua generație de rezolvatori de probleme computerizate de la Deep Mind arată deja potențialul de a trece din lumea jocurilor în lumea reală. La începutul acestei săptămâni, a anunțat un alt algoritm numit AlphaFold, care este capabil să extrapoleze o secvență de proteine ​​într-o predicție precisă a structurii sale 3D.Este o problemă pe care oamenii de știință o îngrijesc de zeci de ani și ar putea ajuta la deschiderea ușii pentru a vindeca bolile de la Alzheimer până la fibroza chistică.