Alpha Go(アルファ碁)でも利用されている深層強化学習。AIサービスのみならずロボティクス分野でもその応用が期待されています。AI開発に携わる第一線の著者陣が深層強化学習の開発手法について書き下ろした『現場で使える!Python深層強化学習入門』が8月7日に発売となりました。
『現場で使える!Python深層強化学習入門 強化学習と深層学習による探索と制御』は、Alpha Goにも利用されている深層強化学習を、この分野の初学者向けに解説した入門書です。
「はじめに」より
2016年、Google DeepMindによるAlphaGoが囲碁でプロ棋士を打破したというニュースは、衝撃とともに世界中に拡がりました。その打ち手のパターン数が膨大であることから、人間には遠く及ばないだろうと考えられていた囲碁ゲームにおいても、機械学習ベースの人工知能が人間を凌駕し得ることを示した事件でした。このAlphaGoを支えている技術が、深層強化学習に他なりません。
本書では、近年、大きな注目を集めるに至った深層強化学習のアルゴリズムを基礎から解説し、具体的な問題への適用について実装例を示しながら紹介します。
本書は大きく分けて2部構成になっています。
第1部では、まず、深層強化学習の概要について説明します。次いで、強化学習の基礎(Q学習、方策勾配法、Actor-Critic法)と深層学習の基礎(CNN、RNN、LSTM)を解説します。さらに、簡単な例題として倒立振子制御を取り上げ、DQNとActor-Critic法による実装例を紹介します。
第2部では、具体的な応用例として3つのアプローチを実装込みで解説します。
1つ目は、連続動作制御です。ヒューマノイドシミュレータの2足歩行制御を試みます。
2つ目は、パズル問題の解法です。巡回セールスマン問題(TSP)やルービックキューブの解探索について説明します。
3つ目は、系列データ生成です。文書生成(SeqGAN)やニューラルネットワークのアーキテクチャ探索(ENAS)を解説します。
全体を通して、行動の制御を担うエージェントのモデル化と、方策ベースの強化学習によるエージェントの学習法について学ぶことができます。
目次
第1部 基礎編
第1章 強化学習の有用性
第2章 強化学習のアルゴリズム
第3章 深層学習による特徴抽出
第4章 深層強化学習の実装
第2部 応用編
第5章 連続制御問題への応用
第6章 組合せ最適化への応用
第7章 系列データ生成への応用
この記事は参考になりましたか?
- この記事の著者
-
渡部 拓也(ワタナベ タクヤ)
翔泳社マーケティング課。MarkeZine、CodeZine、EnterpriseZine、Biz/Zine、ほかにて翔泳社の本の紹介記事や著者インタビュー、たまにそれ以外も執筆しています。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です