DLLAB: 強化学習 Day 2021 · Grayrecord Technow Blog

Introduction

DLLABで強化学習の勉強会が開催されたので受講しました。

Program

開催日: 2021/01/22

時間	セッションテーマ	登壇者
13:00 - 13:10	オープニング&イントロダクション	樋口拓人 (日本マイクロソフト株式会社 Azure AI プロダクトマーケティングマネージャー)
13:10 - 13:40	深層強化学習と実装例	牧野浩二(山梨大学工学部付属モノづくり教育実践センター准教授),西崎博光(山梨大学大学院総合研究部准教授)
13:45 - 14:15	深層強化学習を用いた複合機の搬送制御	菅井駿(コニカミノルタ株式会社)
14:20 - 14:50	これから強化学習を学びたい人へ	吉崎亮介(株式会社キカガク)
14:55 - 15:25	Azure ML 強化学習を用いた最新アルゴリズムの活用手法	大串和正、小川雄太郎(株式会社電通国際情報サービス)
15:30 - 17:00	Minecraft による強化学習の実践 - MineRL ステップ・バイ・ステップハンズオン	松崎剛(日本マイクロソフト株式会社)
17:00 - 17:10	クロージング	樋口拓人 (日本マイクロソフト株式会社 Azure AI プロダクトマーケティングマネージャー)

Content

セッション数はイントロダクションを除いて、5セッション。特にMinecraftによる強化学習の実践というハンズオンのボリュームが大きい満足感の大きい勉強会になります。

強化学習はアカデミックでの経験としては深層強化学習以前の強化学習が中心になります。深層強化学習は体形的に学びたいと思ってきましたがなかなか機会がない状態でした。

初学者向けにはキカガクさんの、これから強化学習を学びたい人へのセッションが良いと思います。また、実際の事例としては、複合機の搬送制御の事例はなかなか興味深い内容でした。今回のハンズオンもそうですが、強化学習における実装例としてはゲームを実行したものが多く、逆に実世界でどういった事例があるのかということに関してはなかなか触れられることが難しいので、恐らくは先進的な事例になればなるほどその先進的な部分を明かしたいとは思わないでしょうから。

今回の勉強会では強化学習の事例としては、Googleのデータセンターの冷却制御、大林組のビルの制振 (PoC)、Googleの半導体チップの設計などが出てきました。

Azure MLでの強化学習の実践として、Azure MLで強化学習を行う利点としては、様々な強化学習アルゴリズムを簡単に切り替えて使用できること、複数のノードを使って、並走させて実行でき、高度な訓練が出来ること、実験結果がクラウドに保存されるため実験のトレーサビリティが良いこと、性能指標が自動でグラフ化され、モデルの性能変異を確認しやすいことがあげられていました。

現在、Azure MLではazureml.contrib.train.rlに強化学習のコントリビューションのパッケージは存在し、今回の勉強会では、 Pendulum 振り子の問題などが触れられていました。

MineRLではgithubのhttps://github.com/tsmatz/minerl-hackがチュートリアルの内容で、GPUは必須ではありませんが、メモリなどはそれなりに必要なようです。このチュートリアルでもStandard D3v2を想定しています。今回は、私もこの部分は他のタスクの関係もあり、横目で聞いていたに留まりますので、後日、実際に試して報告したいと思います。

今回の勉強会では、Azure ML 強化学習を用いた最新アルゴリズムの活用手法、MineRL ステップ・バイ・ステップハンズオンと自分で実行して試せる内容も多く、非常に実りの多いセッションだったと思います。