လၟေင်သ္ဂုတ်သွာတ် မာကပ်
လၟေင်သ္ဂုတ်သွာတ် မာကပ် (အၚ်္ဂလိက်: Markov Decision Process - MDP) ဂှ် ဒှ်သၞောတ်သင်္ချာ (Mathematical framework) သွက်ဂွံဖန်ဗဒှ် လၟေင်သ္ဂုတ်သွာတ် ပ္ဍဲအကာဲအရာမနွံကဵု တင်ဟွံဒးရး (Uncertainty) ရ။ MDP ဝွံ ဒှ်သဇိုင်အဓိက သွက်ဂွံသွဟ်ပြဿနာ ပ္ဍဲကဵု နဲကဲကတ်လ္ၚတ်ဗပေင်ဒြဟတ် (Reinforcement Learning) ကေုာံ ပညာစက်ရုပ် (Robotics) ဂမၠိုင်ရ။
အဝဲသဇိုင် ၅ သာ် (The 5-tuple)
[ပလေဝ်ဒါန် | ပလေဝ်ဒါန် တမ်ကၞက်]ပ္ဍဲကဵု MDP မွဲမွဲဂှ် ဒုင်သဇိုင်ကဵု တင်ဂၞင် ၅ သာ် $(S, A, P, R, \gamma)$ အတိုင်ဗွဲသၟဝ်ဏအ်ရ:
၁။ $S$ (States): အကာဲအရာဂမၠိုင် မနွံပ္ဍဲပွဳပွူ (ဥပမာ: ဒၞာဲစက်ရုပ်မနွံလၟုဟ်)။
၂။ $A$ (Actions): ပရေင်ချဳဒရာင် အေဂျေန် (Agent) မမာန်ကၠောန် (ဥပမာ: ကွာ်အာဂတ၊ ဂတးပဲါ)။
၃။ $P(s' | s, a)$ (Transition Probability): အစောံအရာ (Probability) မပြံင်လှာဲအာစိုပ် အကာဲအရာတၟိ ($s'$) ကာလကၠောန် Action ($a$) ပ္ဍဲအကာဲအရာ ($s$)။ ဣဏအ်ဂှ် ထ္ၜးကဵုဒဒှ်ရ ဂၠးကဝ်ဏအ် နွံကဵုတင်ဟွံဒးရး (Randomness) ရ။
၄။ $R(s, a, s')$ (Reward): လာပ်ဗကာ (Reward) မကလိဂွံမာန် ကာလပြံင်လှာဲအကာဲအရာ။
၅။ $\gamma$ (Gamma): တန်ဖိုးပ္ဍဲအနာဂတ် (Discount factor) မနွံအကြာ ၀ ကဵု ၁။
လက်သဏ် မာကပ် (Markov Property)
[ပလေဝ်ဒါန် | ပလေဝ်ဒါန် တမ်ကၞက်]တင်ကိစ္စဇၞော်အိုတ် ပ္ဍဲ MDP ဂှ် မဒးနွံကဵု လက်သဏ် မာကပ် (Markov Property) ရ။ ဍေံမဂးဂှ်: > "အနာဂတ်ဂှ် တန်တဴဒၟံင် ပ္ဍဲကဵုအကာဲအရာလၟုဟ် (Present) ဆမွဲဟေင်၊ ဍေံဟွံဆက်စပ်ကဵု အရာမကတဵုဒှ်လဝ် ပ္ဍဲအတိက် (Past) ရ။"
တင်ရန်တၟအ် (Goal)
[ပလေဝ်ဒါန် | ပလေဝ်ဒါန် တမ်ကၞက်]တင်ရန်တၟအ်အိုတ် ပ္ဍဲ MDP ဂှ် ဒှ်သွက်ဂွံဂၠာဲကေတ် ဗျူဟာခိုဟ်အိုတ် (Optimal Policy - $\pi^*$) ရ။ ဗျူဟာဏအ်ဂှ် ဍေံဗိုင်ထ္ၜးကဵု အေဂျေန် ညံင်ဂွံတီကေတ် "မုဒးကၠောန်ရော (Action)" ပ္ဍဲအကာဲအရာမွဲမွဲ ညံင်ဂွံကလိဂွံ လာပ်ဗကာ ပံင်ဗစပ် (Cumulative Reward) ဂၠိုင်အိုတ် ပ္ဍဲအနာဂတ်ရ။
နဲကဲသွဟ် (Solution Methods)
[ပလေဝ်ဒါန် | ပလေဝ်ဒါန် တမ်ကၞက်]သွက်ဂွံသွဟ် MDP ကေုာံ ဂၠာဲဗျူဟာခိုဟ်အိုတ်ဂှ် ပိုဲသုင်စောဲ:
- Value Iteration: နဲကဲကလေင်တွဟ် တန်ဖိုး (Value) အဆံင်ဆံင်။
- Policy Iteration: နဲကဲကလေင်ပလေဝ်ဒါန် ဗျူဟာ အဆံင်ဆံင်။
- Bellman Equation: သၞောတ်သင်္ချာ သဇိုင် သွက်ဂွံတွဟ်တန်ဖိုး။
ရံင်အဏအ်
[ပလေဝ်ဒါန် | ပလေဝ်ဒါန် တမ်ကၞက်]- နဲကဲကတ်လ္ၚတ်ဗပေင်ဒြဟတ်
- သၞောတ် Q (Q-Learning)
- အယ်ဂဝ်ရိဒမ်
- Artificial intelligence