Modul în care banditul multiarmat determină ce anunțuri și povestiri vedeți online

QNET Джо Фабрегас CD3 Модуль 3

QNET Джо Фабрегас CD3 Модуль 3
Anonim

Imaginați-vă că sunteți un jucător și stați în fața mai multor mașini de slot. Obiectivul dvs. este de a vă maximiza câștigurile, dar de fapt nu știți nimic despre eventualele recompense oferite de fiecare mașină. Cu toate acestea, înțelegeți că pârghiile pe care le trageți și frecvența cu care faceți acest lucru vor afecta rezultatele jocului de noroc.

Acest scenariu, cu care se confruntă în fiecare zi vizitatorii din Las Vegas și Atlantic City (în orice grad oamenii se mai duc în Atlantic City) este, de asemenea, un puzzle clasic logic numit "Multi-Armed Bandit" - slot machines sunt denumite "One Armed Bandiți "prin îmbătrânirea tipurilor Reno, deoarece au o singură pârghie și ia banii oamenilor. Deși nu există o modalitate corectă de abordare a situațiilor cu bandă multi-armată - cel mai apropiat candidat este Gittins Index - există abordări strategice pentru abordarea acestor probleme pe care le vedeți fără a vă înregistra în fiecare zi când vă conectați online. Mulți algoritmi care reglementează modul în care este prezentat conținutul pe Google și pe site-uri web sunt construite în jurul strategiilor MAB. Scopul în aproape toate cazurile este de a lega învățarea și rezultatele și de a maximiza potențialul pentru ambele.

O abordare a banditului cu mai multe armate este folosită de Washington Post pentru a afla ce fotografii și titluri pe care sunteți cel mai probabil să le faceți clic și de către rețelele wireless pentru a afla care sunt căile optime, care economisesc energia, sunt cele mai bune. Algoritmii care cresc din abordările MBA sunt extrem de importante pentru aceste companii și multe altele, deoarece ele determină în mod esențial când și ce reclame apar online.

Stabilind ce anunțuri pentru a afișa persoane este o problemă provocatoare, deoarece există atât de mulți bandiți cu o singură armată care rulează în jurul clicurilor online. Algoritmii MAB pentru anunțuri folosesc în mod obișnuit o "problemă de bandit multi-armat mortal", care se schimbă rapid și care se aplică pe perioade de timp finite. Datele privind traficul sunt utilizate pentru a dezvolta metodologii din ce în ce mai eficiente.

Este dificil să fixați MAB într-un scop precis, deoarece este posibil să creați atât de multe variații ale formulei. K bandiți armați de K, de exemplu, au "brațe" care concurează pentru a obține cea mai mare recompensă așteptată. Contextualizați bandiții fac la fel, dar cu "sfaturi de specialitate" - datele colectate anterior de către utilizator - și gata pregătită pe web, denumită "ILOVETOCONBANDITS", funcționează numai pe baza unor runde prestabilite. În schimb, o abordare clasică MAB nu are nicio informație laterală posibilă, iar rezultatul depinde numai de potențialul acțiunii alese.

În timp ce aplicația cea mai utilă pentru MAB pare până acum să fie legată de internet, cercetătorii încearcă să găsească o modalitate de a le aplica scenariilor "real life" (aka meatspace). Într-o lucrare din 2015, cercetătorii de la Universitatea din British Columbia consideră utilizarea MAB în studiile medicale. Scopul, dacă MAB-urile se dovedesc a fi posibile aici, este că un algoritm MAB ar putea măsura efectul unui anumit medicament. Problema evidentă este că, dacă nu s-ar putea crea o versiune modulată de calculator, mergerea cu această abordare ar fi pur și simplu prea lungă. Nu există nici un fel că un design MAB ar putea fi plasat într-un studiu clinic.

Ideea este drăguță, dar nu este posibilă încă de acum. Până când viitorul este aici, veți simți în cea mai mare parte prezența proeminentă a unui bandit cu mai multe armate când încercați disperat să faceți clic pe anunțurile pop-up.