強化学習アルゴリズム入門 「平均」からはじめる基礎と応用株式会社 オーム社, 2019/05/23 - 212 ページ 「平均」という観点から強化学習の基本が理解できる!
AlphaGoがプロ棋士を破った2016年以降、 本書は、 また、各アルゴリズムについては、「多腕バンディット問題」
【本書の特徴】 ・難解な強化学習の原理を、中高生にもなじみ深い「 ・さまざまなアルゴリズムを、 ・PythonとMATLAB、2種類のコードを配布します。
※Pythonのバージョンは3です。
扉・はじめに・目次
第1章 平均から学ぶ強化学習の基本概念 1.0 はじめに 1.1 平均と期待値 1.1.1 平均 1.1.2 期待値 1.1.3 期待値と平均の関係 1.2 平均と価値 1.3 平均とマルコフ性 1.3.1 平均の計算式とその変形 1.3.2 逐次平均表現とMP 1.4 平均によるベルマン方程式の導出 1.4.1 平均表現と価値関数の導入 1.4.2 決定型Bellman方程式の導出 1.4.3 確率型Bellman方程式の導出 1.5 平均によるモンテカルロ学習手法の導出 1.5.1 総報酬関数Gt+1の導入 1.5.2 総報酬GtとVtの比較 1.5.3 総報酬Gtの平均による価値関数vSt 1.6 平均によるTD法の導出 1.6.1 TD(0)法の計算式の導出 1.6.2 TD(n)法の計算式の導出
第2章 各アルゴリズムの特徴と応用 2.0 はじめに 2.1 方策π(a | S) 2.1.1 多腕バンディット問題 2.1.2 ε-Greedy方策 2.1.3 UCB-1方策 2.1.4 Bayes sampling方策 2.2 動的計画法 2.2.1 ε-Greedy(ε=1)反復方策 2.2.2 ε-Greedy(ε=0)方策反復法(On-Policy) 2.2.3 ε-Greedy(ε=0)価値反復法(Off-Policy) 2.3 モンテカルロ法 2.3.1 固定開始点モンテカルロ法 2.4 TD(0)法 2.4.1 方策反復方策からSARSA法の導出 2.4.2 TD(0)-SARSA法 2.4.3 価値反復方策からTD(0)-Q学習法の導出 2.4.4 完全Off-Policy のTD(0)-Q学習法 2.4.5 部分Off-Policy のTD(0)-Q学習法 2.4.6 Q学習法とSARSA法の比較
第3章 関数近似手法 3.0 はじめに 3.1 関数近似の基本概念 3.2 関数近似モデルを用いたV(St)の表現 3.3 機械学習による価値関数の回帰 3.3.1 誤差関数からわかる回帰と分類 3.3.2 誤差関数の設計と確率勾配降下法 3.3.3 強化学習における回帰解析の仕組み 3.4 モンテカルロ法を応用した価値関数回帰 3.5 Td(0)-SARSA法を適用した行動状態価値関数の回帰 3.6 Td(0)-Q法を応用した行動状態価値関数の回帰
第4章 深層強化学習の原理と手法 4.1 TD-Q学習におけるNNによる行動価値関数回帰 4.2 DQNによる行動状態価値関数近似 4.3 確率方策勾配法 4.3.1 モンテカルロ離散方策勾配法 4.3.2 ベースラインモンテカルロ離散方策勾配法 4.3.3 離散型Actor-Critic法 4.3.4 連続型Actor-Critic法 4.4 決定型方策勾配法 4.4.1 DDPG 4.4.2 ハイブリッドDDPG 4.5 TRPO/PPO法 4.5.1 EMアルゴリズム 4.5.2 信頼領域(trust region)と自然勾配 4.5.3 信頼領域方策勾配法TRPO 4.6 まとめと展開
参考文献・索引・奥付 |
目次
1 | |
3 | |
10 | |
15 | |
16 | |
132 逐次平均表現とMP | 18 |
14 平均によるベルマン方程式の導出 | 20 |
142 決定型ベルマン方程式の導出 | 25 |
第3章関数近似手法 | 101 |
31 関数近似の基本概念 | 103 |
32 関数近似モデルを用いたVStの表現 | 105 |
33 機械学習による価値関数の回帰 | 110 |
332 誤差関数の設計と確率勾配降下法 | 112 |
333 強化学習における回帰解析のしくみ | 114 |
34 モンテカルロ法を適用した価値関数回帰 | 117 |
35 TD0SARASA法を適用した行動状態価値関数の回帰 | 122 |
143 確率型ベルマン方程式の導出 | 26 |
15 平均によるモンテカルロ学習手法の導出 | 38 |
152 総報酬GStとVStの比較 | 40 |
153 総報酬GStの平均による価値関数vSt | 41 |
16 平均によるTD法の導出 | 43 |
162 TDn法の計算式の導出 | 45 |
第1章まとめ | 46 |
第2章各アルゴリズムの特徴と応用 | 47 |
21 強化学習における方策πa S | 50 |
212 εGreedy方策 | 52 |
213 UCB1方策 | 55 |
214 Bayes sampling方策 | 57 |
22 動的計画法 | 59 |
221 εGreedyε1反復方策 | 61 |
222 εGreedyε0方策反復法OnPolicy | 65 |
223 εGreedyε0価値反復法OffPolicy | 68 |
23 モンテカルロ法 | 72 |
231 固定開始点モンテカルロ法 | 74 |
24 TD0法 | 81 |
242 TD0SARSA法 | 83 |
243 価値反復方策からTD0Q学習法の導出 | 87 |
244 完全OffPolicyのTD0Q学習法 | 88 |
245 部分OffPolicyのTD0Q学習法 | 90 |
246 Q学習法とSARSA法の比較 | 95 |
第2章まとめ | 99 |
36 TD0Q法を応用した行動状態価値関数の回帰 | 132 |
第3章まとめ | 141 |
第4章深層強化学習の原理と手法 | 143 |
41 TDQ学習におけるNNによる行動価値関数回帰 | 144 |
42 DQNによる行動状態価値関数近似 | 147 |
43 確率方策勾配法 | 152 |
431 モンテカルロ離散方策勾配法 | 155 |
432 ベースラインモンテカルロ離散方策勾配法 | 160 |
433 離散型ActorCritic法 | 163 |
434 連続型ActorCritic法 | 168 |
44 決定型方策勾配法 | 171 |
442 ハイブリッドDDPG | 175 |
45 TRPOPPO法 | 177 |
452 信頼領域trust regionと自然勾配 | 178 |
453 信頼領域方策勾配法 | 184 |
46 アルファ碁ゼロ学習法 | 186 |
461 アルファ碁ゼロの学習誤差関数 | 187 |
462 アルファ碁ゼロの学習方策π | 188 |
47 まとめと展開 | 196 |
第4章まとめ | 197 |
参考文献 | 198 |
200 | |
203 | |