機械学習により「動物の行動戦略」を解読 -動物は何を報酬として行動しているのか-

ターゲット
公开日

本田直樹 生命科学研究科准教授、山口正一朗 情報学研究科修士課程学生(現?株式会社Preferred Networks)、石井信 同教授らの研究グループは、動物の行動データから報酬に基づく行動戦略を明らかにする機械学習法を考案しました。さらに、森郁恵 名古屋大学教授らと共同で、この手法を線虫の行動へと応用することで、その有効性を示しました。本手法によって、従来の行動が制限された行動実験系から開放され、より自然な状況において自由に振る舞う動物の行動戦略の研究が進むことが期待されます。

本研究成果は、2018年5月15日に米国の学術誌「PLoS Computational Biology」に掲載されました。

研究者からのコメント

ヒトや动物は、さまざまな状况に対してそれぞれ価値付けを行い、より価値の高い状况を目指す戦略を取っていると考えられます。今回私たちは、动物の行动データからその里に潜む戦略を解読する计算论的手法を提案しました。この手法を用いることで、动物が何に価値を置いて行动しているのかを定量化することに成功しました。今后、この手法によって明らかにされる行动戦略と神経活动データを比较することで、行动戦略を司る神経メカニズムの解明に寄与することを期待しています。

概要

私たちヒトや动物は、より多くの报酬を得るため、状况に応じた「行动戦略」を持って生きています。报酬には食べ物やお金など実态の伴うものだけでなく、间接的にそれらに结びつくものも含まれているため、自由に行动している动物を単に観察しているだけでは、「动物が何を报酬として意思决定を行い、行动しているのか?」を知ることは困难でした。

そこで私たちは、動物の行動時系列データから報酬に基づく行動戦略を明らかにする機械学習法(逆強化学習法)を提案しました。逆強化学習法の応用先として、シンプルなモデル動物である線虫C. elegansの温度走性行動に注目しました。線虫を温度勾配においてトラッキングすることで、行動時系列データを取得し、そして逆強化学習法により、線虫にとって何が報酬となっているのかを推定しました。

その结果、饵が十分ある状态で育った线虫は、「絶対温度」および「温度の时间微分」に応じて报酬を感じていることが明らかとなりました。この报酬に基づく戦略は一つは効率的に成育温度に向かうモード、もう一つは同じ温度の等温线に沿って移动するモードから构成されていました。さらに、推定された报酬を用いて、线虫行动をコンピュータでシミュレーションしたところ、线虫の温度走性行动が再现され、逆强化学习法の妥当性が示されました。

详しい研究内容について

书誌情报

【顿翱滨】

【碍鲍搁贰狈础滨アクセス鲍搁尝】

Shoichiro Yamaguchi, Honda Naoki , Muneki Ikeda, Yuki Tsukada, Shunji Nakano, Ikue Mori, Shin Ishii (2018). Identification of animal behavioral strategies by inverse reinforcement learning. PLOS Computational Biology, 14(5), e1006122.