Action disabled: source


強化学習(Reinforcement Learning)では、数値化された報酬信号を最大にするために、 「どのようにして状況に基づく動作選択を行うか」 を学習する。

強化学習 朱鷺の森

強化学習は「半教師あり学習」に分類される場合がある。 ただし 「半教師あり学習」という言葉は「ラベルありデータとラベルなしデータを併用する機械学習」という意味で用いられることもある。



Richard S. Sutton, Andrew G. Barto 三上 貞芳, 皆川 雅章 訳 強化学習 森北出版 (2000/12)

Reinforcement Learning: An Introduction

Richard S. Sutton and Andrew G. Barto The MIT Press, Cambridge, Massachusetts, London, England

posted with amazlet at 10.11.20
Richard S.Sutton Andrew G.Barto 三上 貞芳 皆川 雅章
売り上げランキング: 110952

Reinforcement Learning: An Introduction (Adaptive Computation and Machine Learning)
Richard S. Sutton Andrew G. Barto
The MIT Press
売り上げランキング: 64582 ScholarPedia WikiPedia

  • 木村 元,宮崎 和光,小林 重信:強化学習システムの設計指針, 計測と制御, Vol.38, No.10, pp.618–623 (1999), 計測自動制御学会.


matlab and python software list


install linux :


Class RLSarsa is an implementation of linear, gradient-descendant Sarsa(lambda) with tile coding. The implementation closely follows the boxed algorithm in Figure 8.8 on page 212 in Sutton, 1998. It is a descendant of mountain car example from the book.


Partially observable Markov decision processes for spoken dialog systems

J. Williams et al., IJCAI, pp. 75-82, 2005

Source Computer Speech and Language Volume 21 , Issue 2 (April 2007) Pages 393-422 Year of Publication: 2007 ISSN:0885-2308

Authors Jason D. Williams AT&T Labs - Research, 180 Park Avenue, Florham Park, NJ 07932, USA Steve Young Cambridge University, Engineering Department, UK

Publisher Academic Press Ltd. London, UK, UK

Bibliometrics Downloads (6 Weeks): n/a, Downloads (12 Months): n/a, Citation Count: 18

Williams et al., 2005a.

Williams, J.D., Poupart, P., Young, S.J., 2005a. Factored partially observable Markov decision processes for dialogue management. In: Proc. Workshop on Knowledge and Reasoning in Practical Dialog Systems, Int. Joint Conf. on Artificial Intelligence (IJCAI), Edinburgh.

Nicholas Roy, Joelle Pineau, Sebastian Thrun

Nicholas Roy, Joelle Pineau, Sebastian Thrun. Spoken Dialogue Management Using Probabilistic Reasoning. Proceedings of the 38th Annual Meeting of the Association for Computational Linguistics (ACL2000). Hong Kong.


  • 書籍名 確率ロボティクス
  • 著者 セバスチャンスラン, ウルフラムバーガード, Sebastian Thrun・Wolfram Burgard・Dieter Fox・上田隆一, ディーター フォックス
  • 翻訳 Sebastian Thrun・Wolfram Burgard・Dieter Fox・上田隆一
  • 出版社 毎日コミュニケーションズ, 2007
  • ISBN 4839924015, 9784839924010
  • ページ数 577 ページ

確率ロボティクス (ROBOT books)
Sebastian Thrun Wolfram Burgard Dieter Fox
売り上げランキング: 388781

reinforcement_learning.txt · 最終更新: 2010/11/20 09:24 by Takuya Nishimoto Valid CSS Driven by DokuWiki do yourself a favour and use a real browser - get firefox!! Recent changes RSS feed Valid XHTML 1.0