強化学習(Reinforcement Learning)では、数値化された報酬信号を最大にするために、 「どのようにして状況に基づく動作選択を行うか」 を学習する。
強化学習 朱鷺の森
強化学習は「半教師あり学習」に分類される場合がある。 ただし 「半教師あり学習」という言葉は「ラベルありデータとラベルなしデータを併用する機械学習」という意味で用いられることもある。
強化学習(森北出版)
Richard S. Sutton, Andrew G. Barto 三上 貞芳, 皆川 雅章 訳 強化学習 森北出版 (2000/12)
Reinforcement Learning: An Introduction
Richard S. Sutton and Andrew G. Barto The MIT Press, Cambridge, Massachusetts, London, England
http://www.cs.ualberta.ca/~sutton/book/ebook/the-book.html
http://www.scholarpedia.org/article/Reinforcement_learning ScholarPedia
http://en.wikipedia.org/wiki/Reinforcement_learning WikiPedia
http://biorobot.ise.ibaraki.ac.jp/~inoue/links.html
http://sysplan.nams.kyushu-u.ac.jp/gen/edu/RL_intro.html
http://www.cs.brown.edu/research/ai/pomdp/tutorial/index.html POMDPs for Dummies
http://www.cs.duke.edu/~mlittman/topics/pomdp-page.html POMDP information page
install linux : http://www.ailab.si/orange/downloads-linux.asp
http://www.ailab.si/orange/doc/modules/orngReinforcement.htm
RLSarsa
Class RLSarsa is an implementation of linear, gradient-descendant Sarsa(lambda) with tile coding. The implementation closely follows the boxed algorithm in Figure 8.8 on page 212 in Sutton, 1998. It is a descendant of mountain car example from the book.
J. Williams et al., IJCAI, pp. 75-82, 2005
http://portal.acm.org/citation.cfm?id=1221967
Source Computer Speech and Language Volume 21 , Issue 2 (April 2007) Pages 393-422 Year of Publication: 2007 ISSN:0885-2308
Authors Jason D. Williams AT&T Labs - Research, 180 Park Avenue, Florham Park, NJ 07932, USA Steve Young Cambridge University, Engineering Department, UK
Publisher Academic Press Ltd. London, UK, UK
Bibliometrics Downloads (6 Weeks): n/a, Downloads (12 Months): n/a, Citation Count: 18
Williams, J.D., Poupart, P., Young, S.J., 2005a. Factored partially observable Markov decision processes for dialogue management. In: Proc. Workshop on Knowledge and Reasoning in Practical Dialog Systems, Int. Joint Conf. on Artificial Intelligence (IJCAI), Edinburgh.
risky.cs.inf.shizuoka.ac.jp/~cs3073/eiron_hosogai.pdf
Nicholas Roy, Joelle Pineau, Sebastian Thrun. Spoken Dialogue Management Using Probabilistic Reasoning. Proceedings of the 38th Annual Meeting of the Association for Computational Linguistics (ACL2000). Hong Kong.