強化学習 - 彗星拳

強化学習とは、ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動を決定する問題を扱う機械学習の一種。エージェントは行動を選択することで環境から報酬を得る。強化学習は一連の行動を通じて報酬が最も多く得られるような方策（policy）を学習する。環境はマルコフ決定過程として定式化される。代表的な手法としてTD学習やQ学習が知られている。

強化学習とは、試行錯誤を通じて「価値を最大化するような行動」を学習する手法
あらかじめ正しい答えが分かっていなくても(=教師データが存在しない) 学習が可能
対戦ゲームやロボットなどでの応用例が多い
深層学習を用いた強化学習のことを深層強化学習(deep reinforcement learning)という
強化学習という名前は、Skinner博士の提唱した脳の学習メカニズムであるオペラント学習に由来する
Skinner博士は、スキナー箱と呼ばれるラット実験によって、「特定の動作に対して報酬を与えると、その動作が強化される」ことを発見し、これをオペラント学習と呼んだ (1940年頃)

ウィルウェイ｜ウィルウェイ｜ウィルウェイ｜ウィルウェイ｜ウィルウェイ｜ウィルウェイ｜ウィルウェイ｜ウィルウェイ｜ウィルウェイ｜ウィルウェイ｜ウィルウェイ｜馬渕教室