Action disabled: source

強化学習

強化学習(Reinforcement Learning)では、数値化された報酬信号を最大にするために、 「どのようにして状況に基づく動作選択を行うか」 を学習する。

強化学習 朱鷺の森

強化学習は「半教師あり学習」に分類される場合がある。 ただし 「半教師あり学習」という言葉は「ラベルありデータとラベルなしデータを併用する機械学習」という意味で用いられることもある。

教科書

強化学習(森北出版)

Richard S. Sutton, Andrew G. Barto 三上 貞芳, 皆川 雅章 訳 強化学習 森北出版 (2000/12)

Reinforcement Learning: An Introduction

Richard S. Sutton and Andrew G. Barto The MIT Press, Cambridge, Massachusetts, London, England

http://www.cs.ualberta.ca/~sutton/book/ebook/the-book.html

強化学習
強化学習
posted with amazlet at 10.11.20
Richard S.Sutton Andrew G.Barto 三上 貞芳 皆川 雅章
森北出版
売り上げランキング: 110952

Reinforcement Learning: An Introduction (Adaptive Computation and Machine Learning)
Richard S. Sutton Andrew G. Barto
The MIT Press
売り上げランキング: 64582

http://www.scholarpedia.org/article/Reinforcement_learning ScholarPedia

http://en.wikipedia.org/wiki/Reinforcement_learning WikiPedia

http://biorobot.ise.ibaraki.ac.jp/~inoue/links.html

http://sysplan.nams.kyushu-u.ac.jp/gen/edu/RL_intro.html

  • 木村 元,宮崎 和光,小林 重信:強化学習システムの設計指針, 計測と制御, Vol.38, No.10, pp.618–623 (1999), 計測自動制御学会.

POMDP

matlab and python software list

orange

install linux : http://www.ailab.si/orange/downloads-linux.asp

http://www.ailab.si/orange/doc/modules/orngReinforcement.htm

RLSarsa

Class RLSarsa is an implementation of linear, gradient-descendant Sarsa(lambda) with tile coding. The implementation closely follows the boxed algorithm in Figure 8.8 on page 212 in Sutton, 1998. It is a descendant of mountain car example from the book.

音声対話への応用

Partially observable Markov decision processes for spoken dialog systems

J. Williams et al., IJCAI, pp. 75-82, 2005

http://portal.acm.org/citation.cfm?id=1221967

Source Computer Speech and Language Volume 21 , Issue 2 (April 2007) Pages 393-422 Year of Publication: 2007 ISSN:0885-2308

Authors Jason D. Williams AT&T Labs - Research, 180 Park Avenue, Florham Park, NJ 07932, USA Steve Young Cambridge University, Engineering Department, UK

Publisher Academic Press Ltd. London, UK, UK

Bibliometrics Downloads (6 Weeks): n/a, Downloads (12 Months): n/a, Citation Count: 18

Williams et al., 2005a.

Williams, J.D., Poupart, P., Young, S.J., 2005a. Factored partially observable Markov decision processes for dialogue management. In: Proc. Workshop on Knowledge and Reasoning in Practical Dialog Systems, Int. Joint Conf. on Artificial Intelligence (IJCAI), Edinburgh.

Nicholas Roy, Joelle Pineau, Sebastian Thrun

risky.cs.inf.shizuoka.ac.jp/~cs3073/eiron_hosogai.pdf

Nicholas Roy, Joelle Pineau, Sebastian Thrun. Spoken Dialogue Management Using Probabilistic Reasoning. Proceedings of the 38th Annual Meeting of the Association for Computational Linguistics (ACL2000). Hong Kong.

確率ロボティクス

  • 書籍名 確率ロボティクス
  • 著者 セバスチャンスラン, ウルフラムバーガード, Sebastian Thrun・Wolfram Burgard・Dieter Fox・上田隆一, ディーター フォックス
  • 翻訳 Sebastian Thrun・Wolfram Burgard・Dieter Fox・上田隆一
  • 出版社 毎日コミュニケーションズ, 2007
  • ISBN 4839924015, 9784839924010
  • ページ数 577 ページ

確率ロボティクス (ROBOT books)
Sebastian Thrun Wolfram Burgard Dieter Fox
毎日コミュニケーションズ
売り上げランキング: 388781

reinforcement_learning.txt · 最終更新: 2010/11/20 09:24 by Takuya Nishimoto
www.chimeric.de Valid CSS Driven by DokuWiki do yourself a favour and use a real browser - get firefox!! Recent changes RSS feed Valid XHTML 1.0