彗星拳

彗星拳へようこそ

強化学習

強化学習とは、ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動を決定する問題を扱う機械学習の一種。エージェントは行動を選択することで環境から報酬を得る。強化学習は一連の行動を通じて報酬が最も多く得られるような方策(policy)を学習する。環境はマルコフ決定過程として定式化される。代表的な手法としてTD学習やQ学習が知られている。

    強化学習とは、試行錯誤を通じて「価値を最大化するような行動」を学習する 手法
    あらかじめ正しい答えが分かっていなくても(=教師データが存在しない) 学習が可能
    対戦ゲームやロボットなどでの応用例が多い
    深層学習を用いた強化学習のことを深層強化学習(deep reinforcement learning)という
    強化学習という名前は、Skinner博士の 提唱した脳の学習メカニズムである オペラント学習に由来する
    Skinner博士は、スキナー箱と呼ばれる ラット実験によって、「特定の動作に 対して報酬を与えると、その動作が 強化される」ことを発見し、これを オペラント学習と呼んだ (1940年頃)



ウィルウェイウィルウェイウィルウェイウィルウェイウィルウェイウィルウェイウィルウェイウィルウェイウィルウェイウィルウェイウィルウェイ馬渕教室