EITC/AI/ARL Advanced Reinforcement Learning ir Eiropas IT sertifikācijas programma par DeepMind pieeju mācībām mākslīgā intelekta jomā.
EITC/AI/ARL Advanced Reinforcement Learning mācību programma koncentrējas uz teorētiskajiem aspektiem un praktiskajām iemaņām pastiprinošās mācīšanās paņēmienos no DeepMind perspektīvas, kas organizēta šādā struktūrā, ietverot visaptverošu video didaktisko saturu kā atsauci uz šo EITC sertifikātu.
Mācību pastiprināšana (RL) ir mašīnmācīšanās joma, kas saistīta ar to, kā inteliģentajiem aģentiem būtu jāveic darbības vidē, lai maksimāli palielinātu kumulatīvās atlīdzības jēdzienu. Mācību pastiprināšana ir viena no trim mašīnmācīšanās pamatparadigmām līdzās uzraudzītai un bez uzraudzības.
Mācību pastiprināšana atšķiras no uzraudzītās mācīšanās ar to, ka nav jāuzrāda marķēti ievades/izvades pāri un nav vajadzīgas nepietiekami optimālas darbības, lai tās skaidri koriģētu. Tā vietā galvenā uzmanība tiek pievērsta tam, lai atrastu līdzsvaru starp (nezināmas teritorijas) izpēti un (pašreizējo zināšanu) izmantošanu.
Vide parasti tiek norādīta Markova lēmumu pieņemšanas procesā (MDP), jo daudzi pastiprināšanas mācīšanās algoritmi šajā kontekstā izmanto dinamiskās programmēšanas metodes. Galvenā atšķirība starp klasiskajām dinamiskās programmēšanas metodēm un pastiprināšanas mācīšanās algoritmiem ir tā, ka pēdējie nepieņem zināšanas par precīzu MDP matemātisko modeli un tie ir vērsti uz lieliem MDP, kur precīzas metodes kļūst neiespējamas.
Pateicoties tā vispārīgumam, pastiprināšanas mācīšanās tiek pētīta daudzās disciplīnās, piemēram, spēļu teorijā, vadības teorijā, operāciju izpētē, informācijas teorijā, uz simulācijām balstītā optimizācijā, daudzu aģentu sistēmās, spietu inteliģencē un statistikā. Operāciju izpētes un kontroles literatūrā pastiprināšanas mācīšanos sauc par aptuveno dinamisko programmēšanu vai neiro-dinamisko programmēšanu. Intereses par mācīšanās pastiprināšanu ir pētītas arī optimālās kontroles teorijā, kas galvenokārt attiecas uz optimālu risinājumu un to precīzas aprēķināšanas algoritmiem un mazāk par mācīšanos vai tuvināšanu, īpaši, ja nav vides matemātiskais modelis. Ekonomikā un spēļu teorijā pastiprināšanas mācības var izmantot, lai izskaidrotu, kā līdzsvars var rasties ierobežotā racionalitātē.
Pamata pastiprinājums tiek modelēts kā Markova lēmumu process (MDP). Matemātikā Markova lēmumu process (MDP) ir diskrēta laika stohastisks kontroles process. Tas nodrošina matemātisku ietvaru lēmumu pieņemšanas modelēšanai situācijās, kad rezultāti ir daļēji nejauši un daļēji lēmumu pieņēmēja kontrolē. MDP ir noderīgi, lai pētītu optimizācijas problēmas, kas atrisinātas, izmantojot dinamisko programmēšanu. MDP bija zināmi vismaz jau pagājušā gadsimta 1950. gados. Markova lēmuma procesu izpētes pamatteksts radās Ronalda Hovarda 1960. gada grāmatā “Dinamiskā programmēšana un Markova procesi”. Tos izmanto daudzās disciplīnās, ieskaitot robotiku, automātisko vadību, ekonomiku un ražošanu. MDP nosaukums cēlies no krievu matemātiķa Andreja Markova, jo tie ir Markova ķēžu pagarinājums.
Katrā laika posmā process ir kādā stāvoklī S, un lēmuma pieņēmējs var izvēlēties jebkuru darbību a, kas ir pieejama stāvoklī S. Process nākamajā reakcijas posmā atbild, nejauši pārejot uz jaunu stāvokli S 'un dodot lēmumu pieņēmējam atbilstoša atlīdzība Ra (S, S ').
Varbūtību, ka process pāriet jaunā stāvoklī S ', ietekmē izvēlētā darbība a. Konkrēti to dod stāvokļa pārejas funkcija Pa (S, S '). Tādējādi nākamais stāvoklis S 'ir atkarīgs no pašreizējā stāvokļa S un lēmuma pieņēmēja darbības a. Bet, ņemot vērā S un a, tas ir nosacīti neatkarīgs no visiem iepriekšējiem stāvokļiem un darbībām. Citiem vārdiem sakot, MDP stāvokļa pārejas apmierina Markova īpašumu.
Markova lēmumu pieņemšanas procesi ir Markova ķēžu paplašinājums; atšķirība ir darbību pievienošana (ļaujot izvēlēties) un atlīdzība (dodot motivāciju). Un otrādi, ja katram stāvoklim ir tikai viena darbība (piemēram, “gaidīšana”) un visas atlīdzības ir vienādas (piemēram, “nulle”), Markova lēmumu pieņemšanas process kļūst par Markova ķēdi.
Stiprinājuma mācību līdzeklis mijiedarbojas ar savu vidi atsevišķos laika posmos. Katrā brīdī t aģents saņem pašreizējo stāvokli S (t) un atlīdzību r (t). Pēc tam no pieejamo darbību kopas izvēlas darbību a (t), kas pēc tam tiek nosūtīta videi. Vide pāriet uz jaunu stāvokli S (t + 1) un tiek noteikta ar pāreju saistītā atlīdzība r (t + 1). Mācīšanās aģenta mērķis ir apgūt politiku, kas maksimāli palielina paredzamo kumulatīvo atlīdzību.
Formulējot problēmu kā MDP, tiek pieņemts, ka aģents tieši ievēro pašreizējo vides stāvokli. Šajā gadījumā tiek uzskatīts, ka problēma ir pilnībā novērojama. Ja aģentam ir piekļuve tikai valstu apakškopai vai ja novērotos stāvokļus sabojā troksnis, tiek uzskatīts, ka aģentam ir daļēja novērojamība, un formāli problēma jāformulē kā daļēji novērojams Markova lēmumu process. Abos gadījumos aģenta rīcībā esošo darbību kopumu var ierobežot. Piemēram, konta atlikuma stāvokli varētu ierobežot kā pozitīvu; ja pašreizējā stāvokļa vērtība ir 3 un stāvokļa pāreja mēģina samazināt vērtību par 4, pāreja nebūs atļauta.
Ja aģenta sniegumu salīdzina ar aģenta, kurš darbojas optimāli, veiktspējas atšķirība rada nožēlas jēdzienu. Lai darbotos tuvu optimāli, aģentam ir jāpamato savas darbības ilgtermiņa sekas (ti, maksimāli jāpalielina nākotnes ienākumi), lai gan tūlītēja atlīdzība, kas ar to saistīta, varētu būt negatīva.
Tādējādi mācīšanās pastiprināšanas ceļā ir īpaši piemērota problēmām, kas ietver ilgtermiņa un īstermiņa atlīdzības kompromisu. Tas ir veiksmīgi piemērots dažādām problēmām, tostarp robotu vadībai, liftu plānošanai, telekomunikācijām, bekgemam, dambretei un Go (AlphaGo).
Divi elementi padara pastiprinātu mācīšanos spēcīgu: paraugu izmantošana veiktspējas optimizēšanai un funkciju tuvināšanas izmantošana, lai tiktu galā ar lielu vidi. Pateicoties šiem diviem galvenajiem komponentiem, pastiprināšanas mācības var izmantot lielās vidēs šādās situācijās:
- Vides modelis ir zināms, bet analītiskais risinājums nav pieejams.
- Tiek dots tikai vides simulācijas modelis (uz simulāciju balstītas optimizācijas priekšmets).
- Vienīgais veids, kā vākt informāciju par vidi, ir mijiedarboties ar to.
Pirmās divas no šīm problēmām varētu uzskatīt par plānošanas problēmām (jo ir pieejama kāda modeļa forma), bet pēdējo - par patiesu mācīšanās problēmu. Tomēr mācīšanās pastiprināšanas rezultātā abas plānošanas problēmas tiek pārveidotas par mašīnmācīšanās problēmām.
Izpētes un izmantošanas kompromiss ir visgrūtāk izpētīts, izmantojot daudzroku bandītu problēmu un ierobežotu valsts kosmosa MDP Burnetas un Katehakis (1997).
Mācīšanās pastiprināšanai prasa gudrus izpētes mehānismus; nejauši izvēlētas darbības, neatsaucoties uz aplēsto varbūtību sadalījumu, parāda sliktu sniegumu. (Mazo) ierobežoto Markova lēmumu pieņemšanas procesu gadījums ir samērā labi saprotams. Tomēr, tā kā nav tādu algoritmu, kas labi mērogotos pēc stāvokļu skaita (vai mērogotu līdz problēmām ar bezgalīgām stāvokļu telpām), vispraktiskākās ir vienkāršas izpētes metodes.
Pat ja netiek ņemts vērā izpētes jautājums un pat tad, ja stāvoklis bija novērojams, problēma joprojām ir izmantot iepriekšējo pieredzi, lai uzzinātu, kuras darbības rada lielāku kumulatīvo atlīdzību.
Lai detalizēti iepazītos ar sertifikācijas mācību programmu, varat paplašināt un analizēt zemāk esošo tabulu.
EITC/AI/ARL Advanced Enforcement Learning Certification Curriculum ir atsauces uz brīvpiekļuves didaktiskajiem materiāliem video formātā. Mācību process ir sadalīts pakāpeniskā struktūrā (programmas -> nodarbības -> tēmas), kas aptver attiecīgās mācību programmas daļas. Tiek nodrošinātas arī neierobežotas konsultācijas ar domēna ekspertiem.
Lai iegūtu sīkāku informāciju par sertifikācijas procedūru, pārbaudiet Kā tas darbojas.
Mācību programmu atsauces resursi
Cilvēka līmeņa kontrole, izmantojot Deep Reinforcement Learning publikāciju
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
Atklātas piekļuves kurss par dziļo mācīšanos UC Berkeley
http://rail.eecs.berkeley.edu/deeprlcourse/
RL pielietoja K-armbed bandītu problēmu no Manifold.ai
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
Lejupielādējiet pilnus bezsaistes pašmācības sagatavošanas materiālus EITC/AI/ARL Advanced Reinforcement Learning programmai PDF failā
EITC/AI/ARL sagatavošanas materiāli – standarta versija
EITC/AI/ARL sagatavošanas materiāli – paplašinātā versija ar pārskata jautājumiem