Învățarea profundă a armării este predarea unor noi abilități mai repede decât oricând

$config[ads_kvadrat] not found

Дрожь и трепет Говорящего Тома и Друзей (Сборник любимых серий)

Дрожь и трепет Говорящего Тома и Друзей (Сборник любимых серий)
Anonim

Roboții învață cum să-și îndeplinească sarcinile în spiritele lumilor virtuale, dezvoltând abilități într-o chestiune de ore care altfel ar putea dura luni. Simularea învățământului de întărire profundă (sau Deep RL) înseamnă o abilitate care ar lua în mod normal 55 de zile pentru o procedură A.I. să înveți în lumea reală durează doar o zi în sala de clasă hiper-accelerată.

"Are potențialul de a revoluționa într-adevăr ceea ce putem face în domeniul robotizării", a declarat Raia Hadsell, cercetător științific la Google DeepMind, la reuniunea de reafirmare de la Deep Learning din Londra joi. "Putem învăța abilitățile la nivel uman".

S-ar putea suna contra-intuitiv, cu siguranță că întregul punct de roboți este că programatorii îi pot învăța să facă lucruri, nu? La proiectarea unei mașini care operează în lumea reală, totuși, roboții au nevoie de o mulțime de date pentru a înțelege cum să facă o sarcină într-o situație necunoscută. A.I. pot utiliza aceste date pentru a "învăța" o abilitate bazată pe toate instanțele care au apărut înainte.

Învățarea prin armare profundă colectează acele date într-un mod similar cu modul în care oamenii învață: un robot va îndeplini o sarcină în mod repetat, cum ar fi lovirea unei mingi, și va înregistra datele pentru a construi o imagine a celui mai bun mod de a prinde o minge într-o nouă situație. Atunci când DeepMind a folosit modelul în 2013 pentru a învăța un robot cum să stăpânească jocurile Atari, pur și simplu așezându-l în fața ecranului și spunându-i obiectivul final, comunitatea științifică a iubit-o.

Problema este că asta durează pentru totdeauna. Trebuie să arunci bile la un robot în mod repetat, sau în cazul Atari, lăsați robotul singur în dormitor pentru o vreme. Făcând o simulare MuJoCo, combinată cu o rețea neuronală progresivă, formatorii pot rula un program care imită robotul, transferă comportamentele învățate robotului și cartografiază mișcările virtuale în lumea reală.

"Putem conduce acele simulatoare toată ziua și toată noaptea", a spus Hadsell.

Rezultatele vorbesc de la sine. Acest robot, care și-a obținut diploma de capturare, poate urmări acum bilele virtuale ca și cum ar fi reale, pregătindu-l pentru ziua cea mare când este rugat să prindă o adevărată minge:

$config[ads_kvadrat] not found