ထလာ်တိတ်အာနကဵုမာတိကာညိ

သၞောတ် Q

နူ ဝဳကဳပဳဒဳယာ

သၞောတ် Q (အၚ်္ဂလိက်: Q-Learning) ဂှ် ဒှ်အယ်ဂဝ်ရိဒမ် နဲကဲကတ်လ္ၚတ်ဗပေင်ဒြဟတ် (Reinforcement Learning) မွဲ ဂကူ Off-policy မသုင်စောဲ သွက်ဂွံကတ်လ္ၚတ် ဗျူဟာ (Policy) မကဵုလာပ်ဗကာ (Reward) ဂၠိုင်အိုတ်ရ။ နဲကဲဏအ်ဝွံ ကဵုအစောံစရာဲ ကုအေဂျေန် (Agent) ညံင်ဂွံတီကေတ် "တန်ဖိုး" (Value) နူပရေင်ချဳဒရာင်မွဲမွဲ ပ္ဍဲအကာဲအရာမွဲမွဲရ။

အက္ခရ် **Q** ဂှ် ရန်တၟအ်ကဵု **Quality** (အစောံစရာဲ) ရ။ ဍေံမဂးဂှ် "မုစိအစောံစရာဲ နွံရော ယဝ်ရပိုဲကၠောန် Action (a) ပ္ဍဲ State (s) ဏအ်" ရ။

ပ္ဍဲကဵုပွဳပွူ မနွံကဵုအကာဲအရာအောန်အောန်၊ ပိုဲသုင်စောဲ ဇယိုင် (Table) သွက်ဂွံစၟတ်သမ္တီ တန်ဖိုး Q ဂမၠိုင်ရ။

  • **Rows (ပၞောန်):** ဒှ်အကာဲအရာ (States)။
  • **Columns (တိုင်):** ဒှ်ပရေင်ချဳဒရာင် (Actions)။
  • **Cells (ကလာပ်):** ဒှ်တန်ဖိုး Q မထ္ၜးကဵု လာပ်ဗကာ မကလိဂွံမာန် ပ္ဍဲအနာဂတ်။

သၞောတ်ဏအ် ဒှ်သဇိုင်အဓိက သွက်ဂွံထပ်ဗပေင် (Update) တန်ဖိုး Q ရ။

$$Q(s, a) \leftarrow Q(s, a) + \alpha [R + \gamma \max Q(s', a') - Q(s, a)]$$

  • $Q(s, a)$: တန်ဖိုး Q လၟုဟ်။
  • $\alpha$ (Alpha): အဆံင်မကတ်လ္ၚတ် (Learning rate)။
  • $R$: လာပ်ဗကာ (Reward) မကလိဂွံလၟုဟ်။
  • $\gamma$ (Gamma): တန်ဖိုးပ္ဍဲအနာဂတ် (Discount factor)။
  • $\max Q(s', a')$: တန်ဖိုး Q ခိုဟ်အိုတ် ပ္ဍဲအကာဲအရာဂတ။

လၟေင်ကမၠောန် အဆံင်ဆံင်

[ပလေဝ်ဒါန် | ပလေဝ်ဒါန် တမ်ကၞက်]

၁။ **အစ:** ဖန်ဗဒှ် ဇယိုင် Q နကဵုတန်ဖိုး ၀ အလုံအိုတ်သီု။ ၂။ **ရုဲစှ်:** ရုဲစှ်ကေတ် Action မွဲ (နကဵုနဲကဲ Exploration ဟွံသေင်မ္ဂး Exploitation)။ ၃။ **ကၠောန်:** ကၠောန် Action ဂှ် တုဲညာတ်ကေတ် လာပ်ဗကာ (R) ကေုာံ အကာဲအရာတၟိ (s')။ ၄။ **ထပ်ဗပေင်:** ထပ်ဗပေင်တန်ဖိုး Q ပ္ဍဲဇယိုင် နကဵု Bellman Equation။ ၅။ **ကလေင်:** ကၠောန်ဗဂေတ်အာ အဆံင်ဆံင် စဵုကဵုစက်ဂှ် ဍေံကတ်လ္ၚတ်ဒးအိုတ်ရ။

ပ္ဍဲကဵုပြဿနာ မဝါတ်တ်ဂမၠိုင် (ဥပမာ: ဝှုက်ပလေဝ် Atari) ဒၞာဲအကာဲအရာ (States) မနွံဗွဲမဂၠိုင်ဂှ် ဇယိုင် Q သုင်စောဲဟွံဂွံရ။ ဟိုတ်ဏအ်ရ ပိုဲသုင်စောဲ သၞောတ်အာရီုကောန်ကၞေင် (Neural Networks) စၞးဇယိုင်တုဲ ကော်ခါန်စ **DQN** ရ။