Mokymasis naudojant pastiprinimą

Su mokymosi pastiprinant biologija galima susipažinti tinklalapyje Operant conditioning ir Reward

Mokymasis naudojant pastiprinimą (angl. Reinforcement learning, RL) - tai programinės įrangos agento mokymas, kaip elgtis aplinkoje, nurodant jam, kaip gerai jis elgiasi. Tai mašininio mokymosi sritis, įkvėpta bihevioristinės psichologijos.

Mokymasis naudojant pastiprinimą skiriasi nuo prižiūrimo mokymosi, nes niekada nerodomi teisingi įvesties ir išvesties duomenys. Be to, priešingai nei prižiūrimas mokymasis, pastiprintas mokymasis paprastai mokosi eigoje (internetinis mokymasis). Tai reiškia, kad agentas turi rinktis tarp tyrinėjimo ir laikymosi to, ką jis geriausiai žino.

Įvadas

Pastiprinto mokymosi sistemą sudaro politika ( π {\displaystyle \pi }{\displaystyle \pi } ), atlygio funkcija ( R {\displaystyle R}{\displaystyle R} ), vertės funkcija ( v {\displaystyle v}{\displaystyle v} ) ir neprivalomas aplinkos modelis.

Polise agentui nurodoma, kaip elgtis tam tikroje situacijoje. Tai gali būti paprasta taisyklių lentelė arba sudėtinga teisingo veiksmo paieška. Politika gali būti net stochastinė, t. y. vietoj taisyklių politikoje kiekvienam veiksmui priskiriamos tikimybės. Politika pati savaime gali priversti agentą atlikti tam tikrus veiksmus, tačiau ji negali pati mokytis.

Atlygio funkcija apibrėžia agento tikslą. Ji priima būseną (arba būseną ir veiksmą, atliktą toje būsenoje) ir grąžina skaičių, vadinamą atlygiu, kuris nurodo, kaip gerai agentui būti toje būsenoje. Agento užduotis - gauti kuo didesnį atlygį ilguoju laikotarpiu. Jei veiksmas duoda mažą atlygį, agentas tikriausiai ateityje imsis geresnio veiksmo. Biologija naudoja atlygio signalus, tokius kaip malonumas ar skausmas, kad užtikrintų, jog organizmai išliktų gyvi ir galėtų daugintis. Atlygio signalai taip pat gali būti stochastiniai, kaip lošimo automatai kazino, kai kartais jie duoda, o kartais ne.

Vertės funkcija parodo, kokį atlygį agentas gaus vykdydamas politiką π {\displaystyle \pi }{\displaystyle \pi } pradedant nuo būsenos s {\displaystyle s}{\displaystyle s} . Ji parodo, kaip pageidautina būti tam tikroje būsenoje. Kadangi vertės funkcija agentui tiesiogiai nepateikiama, jis turi sugalvoti gerą spėjimą arba įvertį, remdamasis iki šiol gautu atlygiu. Vertės funkcijos įvertinimas yra svarbiausia daugumos pastiprinto mokymosi algoritmų dalis.

Modelis - tai agento mintinė aplinkos kopija. Jis naudojamas būsimiems veiksmams planuoti.

Žinodami tai, galime kalbėti apie pagrindinį pastiprinto mokymosi epizodo ciklą. Agentas sąveikauja su aplinka diskrečiais laiko žingsniais. Įsivaizduokite tai kaip laikrodžio "tiksėjimą". Esant diskrečiam laikui, viskas vyksta tik per "tiksėjimą" ir "tiksėjimą", o ne tarp jų. Kiekvieną kartą t = 0 , 1 , 2 , 3 , ... {\displaystyle t=0,1,2,3,... } {\displaystyle t=0,1,2,3,...}agentas stebi aplinkos būseną S t {\displaystyle S_{t}}{\displaystyle S_{t}} ir pasirenka veiksmą A t {\displaystyle A_{t}}{\displaystyle A_{t}} remdamasis politika π {\displaystyle \pi } {\displaystyle \pi }. Kitą laiko žingsnį agentas gauna atlygio signalą R t + 1 {\displaystyle R_{t+1}}{\displaystyle R_{t+1}} ir naują stebėjimą S t + 1 {\displaystyle S_{t+1}}. {\displaystyle S_{t+1}}. Vertės funkcija v ( S t ) {\displaystyle v(S_{t})}{\displaystyle v(S_{t})} atnaujinama naudojant atlygį. Tai tęsiasi tol, kol pasiekiama galutinė būsena S T {\displaystyle S_{T}} . {\displaystyle S_{T}}

Zoom



AlegsaOnline.com - 2020 / 2023 - License CC3