Kas yra pastiprinimo mokymasis? (Reinforcement Learning) – apibrėžimas

Kas yra pastiprinimo mokymasis? Sužinokite Reinforcement Learning apibrėžimą, kaip agentai mokosi spręsti problemas, rinktis tarp tyrinėjimo ir išnaudojimo bei gauti atlygį.

Autorius: Leandro Alegsa

10-11-2025 13:48

Su mokymosi pastiprinant biologija galima susipažinti tinklalapyje Operant conditioning ir Reward

Mokymasis naudojant pastiprinimą (angl. Reinforcement learning, RL) - tai programinės įrangos agento mokymas, kaip elgtis aplinkoje, nurodant jam, kaip gerai jis elgiasi. Tai mašininio mokymosi sritis, įkvėpta bihevioristinės psichologijos.

Mokymasis naudojant pastiprinimą skiriasi nuo prižiūrimo mokymosi, nes niekada nerodomi teisingi įvesties ir išvesties duomenys. Be to, priešingai nei prižiūrimas mokymasis, pastiprintas mokymasis paprastai mokosi eigoje (internetinis mokymasis). Tai reiškia, kad agentas turi rinktis tarp tyrinėjimo ir laikymosi to, ką jis geriausiai žino.

Pagrindinės sąvokos

Agentas – sprendimus priimanti sistema arba programa.
Aplinka – viskas, su kuo agentas sąveikauja; aplinka grąžina būsenas ir pastiprinimus.
Būsena (state) – aplinkos momentinė reprezentacija, kurią mato agentas.
Veiksmas (action) – pasirinkimas, kurį agentas atlieka tam tikroje būsenoje.
Pastiprinimas (reward) – skaliaritas, kuris nurodo, kiek gerai (ar blogai) pasirodė veiksmas; tikslas – maksimalizuoti kaupiamą grąžą.
Politika (policy) – taisyklė arba funkcija, pagal kurią agentas renkasi veiksmus (deterministinė arba stochastinė).
Vertės funkcija (value) – numatomos ateities pastiprinimų (pvz., diskontuotos sumos) vertės būsenai ar būsenos–veiksmo porai.
Modelis – agento apie aplinką sukurtas apskaičiavimų modelis (jei toks yra); skirtis tarp model-based ir model-free metodų.
Diskontavimo faktorius (γ) – nustato, kiek agentas vertina artimus pastiprinimus prieš tolimesnius.

Kaip tai veikia (tikslas)

Agentas siekia rasti tokią politiką, kuri maksimalizuoja tikėtiną kaupiamą (diskontuotą) pastiprinimą per laiką. Praktikoje tai reiškia, kad agentas mokosi, kuriems veiksmams tam tikrose būsenose suteikti pirmenybę, atsižvelgdamas į trumpalaikes ir ilgalaikes pasekmes.

Tipiškos klasifikacijos ir algoritmai

Model-free (pvz., Q-learning, SARSA, DQN) – agentas mokosi vertės arba politikos be aplinkos modelio.
Model-based – agentas pirmiausia mokosi arba naudoja modelį apie aplinką planavimui.
Value-based – mokoma vertės funkcija (pvz., Q-funkcija); pasirinkimai išvedami remiantis vertėmis (pvz., Q-learning, DQN).
Policy-based – tiesiogiai optimizuojama politika (pvz., REINFORCE, PPO).
Actor–Critic – hibridiniai metodai, kombinantys politikos (actor) ir vertės (critic) apmokymą (pvz., A3C, PPO, SAC).

Tyrinėjimas vs. išnaudojimas

Vienas pagrindinių iššūkių yra pasirinkti tarp tyrinėjimo (exploration) – bandyti naujus veiksmus, kad surastum geresnius sprendimus, ir išnaudojimo (exploitation) – rinktis pažįstamus veiksmus, kurie jau duoda gerą rezultatą. Dažnai naudojamos strategijos: epsilon-greedy, UCB, Boltzmann (softmax) arba entropijos reguliavimas politikos optimizacijoje.

Praktiniai aspektai ir iššūkiai

Retas arba slaptas pastiprinimas – kai pastiprinimai gaunami labai retais atvejais, mokymasis tampa sudėtingas (problema „credit assignment“).
Efektyvumas pagal pavyzdžius (sample efficiency) – daug RL algoritmų reikalauja milijonų žaidimų epizodų; tai ypač problema realaus pasaulio sistemose.
Stabilumas ir konvergencija – griežta teorija dažnai neatitinka praktikos; reikalingi mechanizmai, tokie kaip patirties atmintis (replay buffer), tikslinės tinklų kopijos (target networks) ir kt.
Saugumas ir robustiškumas – agentai gali „apgauti“ savo pradinį paskatinimų dizainą (reward hacking); svarbu gerai suformuluoti tikslus ir apribojimus.
Sim2Real (simuliatorius → realybė) – perkelti modelį, išmokytą simuliatoriuje, į fizinę sistemą sudėtinga dėl tarpinės klaidos ir parametrų neatitikimų.

Pritaikymas

Pastiprinimo mokymasis taikomas daugelyje sričių:

Žaidimai: šachmatai, Go, kompiuteriniai žaidimai (pvz., DeepMind AlphaGo, Atari žaidimų agentai).
Robotika: judesio valdymas, manipuliacija, autonominė navigacija.
Valdymo sistemos: energijos valdymas, automatinis valdymas.
Rekomendacijų sistemos ir personalizacija.
Finansai: portfelio optimizavimas, automatizuota prekyba (su atsargumu dėl rizikos).

Įrankiai ir praktika

Praktikai dažnai dirba su simuliatoriais ir atviro kodo bibliotekomis, kurios supaprastina eksperimentavimą su RL algoritmais. Populiarūs įrankiai: OpenAI Gym aplinkos standartizavimui, Stable Baselines, RLlib ir klasikinių deep learning bibliotekų (TensorFlow, PyTorch) palaikymas. Eksperimentuojant svarbu užtikrinti reproducibilumą, naudoti tinkamus matavimus ir stebėti agento elgesį ne tik pagal skaitinius nuostolius, bet ir pagal realius elgesio pavyzdžius.

Santrauka

Mokymasis naudojant pastiprinimą yra galinga paradigmė sprendimams, kuriuose reikia nuoseklios sąveikos su aplinka ir strateginio elgesio formavimo. Tai sritys, kur biologinės idėjos apie atlyginimą ir atpildą natūraliai susieina su matematiniais optimizavimo ir statistikos metodais. Nors RL turi didelį potencialą, praktinė sėkmė reikalauja kruopštaus problemos formulavimo, tinkamos architektūros ir atidžios eksperimentų kontrolės.

Įvadas

Pastiprinto mokymosi sistemą sudaro politika ( π {\displaystyle \pi } $\pi$ ), atlygio funkcija ( R {\displaystyle R} $R$ ), vertės funkcija ( v {\displaystyle v} $v$ ) ir neprivalomas aplinkos modelis.

Polise agentui nurodoma, kaip elgtis tam tikroje situacijoje. Tai gali būti paprasta taisyklių lentelė arba sudėtinga teisingo veiksmo paieška. Politika gali būti net stochastinė, t. y. vietoj taisyklių politikoje kiekvienam veiksmui priskiriamos tikimybės. Politika pati savaime gali priversti agentą atlikti tam tikrus veiksmus, tačiau ji negali pati mokytis.

Atlygio funkcija apibrėžia agento tikslą. Ji priima būseną (arba būseną ir veiksmą, atliktą toje būsenoje) ir grąžina skaičių, vadinamą atlygiu, kuris nurodo, kaip gerai agentui būti toje būsenoje. Agento užduotis - gauti kuo didesnį atlygį ilguoju laikotarpiu. Jei veiksmas duoda mažą atlygį, agentas tikriausiai ateityje imsis geresnio veiksmo. Biologija naudoja atlygio signalus, tokius kaip malonumas ar skausmas, kad užtikrintų, jog organizmai išliktų gyvi ir galėtų daugintis. Atlygio signalai taip pat gali būti stochastiniai, kaip lošimo automatai kazino, kai kartais jie duoda, o kartais ne.

Vertės funkcija parodo, kokį atlygį agentas gaus vykdydamas politiką π {\displaystyle \pi } $\pi$ pradedant nuo būsenos s {\displaystyle s} $s$ . Ji parodo, kaip pageidautina būti tam tikroje būsenoje. Kadangi vertės funkcija agentui tiesiogiai nepateikiama, jis turi sugalvoti gerą spėjimą arba įvertį, remdamasis iki šiol gautu atlygiu. Vertės funkcijos įvertinimas yra svarbiausia daugumos pastiprinto mokymosi algoritmų dalis.

Modelis - tai agento mintinė aplinkos kopija. Jis naudojamas būsimiems veiksmams planuoti.

Žinodami tai, galime kalbėti apie pagrindinį pastiprinto mokymosi epizodo ciklą. Agentas sąveikauja su aplinka diskrečiais laiko žingsniais. Įsivaizduokite tai kaip laikrodžio "tiksėjimą". Esant diskrečiam laikui, viskas vyksta tik per "tiksėjimą" ir "tiksėjimą", o ne tarp jų. Kiekvieną kartą t = 0 , 1 , 2 , 3 , ... {\displaystyle t=0,1,2,3,... } $t=0,1,2,3,...$ agentas stebi aplinkos būseną S t {\displaystyle S_{t}} $S_{t}$ ir pasirenka veiksmą A t {\displaystyle A_{t}} $A_{t}$ remdamasis politika π {\displaystyle \pi } $\pi$ . Kitą laiko žingsnį agentas gauna atlygio signalą R t + 1 {\displaystyle R_{t+1}} $R_{t+1}$ ir naują stebėjimą S t + 1 {\displaystyle S_{t+1}}. $S_{t+1}$ . Vertės funkcija v ( S t ) {\displaystyle v(S_{t})} $v(S_{t})$ atnaujinama naudojant atlygį. Tai tęsiasi tol, kol pasiekiama galutinė būsena S T {\displaystyle S_{T}} . $S_{T}$