現在位置: 自己紹介と技術情報 » HTK : The Hidden Markov Model Toolkit

HTK : The Hidden Markov Model Toolkit

HTK は隠れマルコフモデルによる音声認識のツールキット。

ケンブリッジ大学の技術をもとに製品化された有償のソフトウェアだったが、開発元が Microsoft に買収され、その後無料で公開された。現在は厳密な意味でのオープンソースプログラムではなく、配布元でユーザ登録すれば入手・利用できる。

http://htk.eng.cam.ac.uk/

特徴量計算の部分を自前で用意することで画像認識などにも応用できる。

ATK : Application Toolkit for HTK が提供されている。

HTK のパッチとして音声合成ツールキットHTSが公開されている。

コマンド hvite

資料

近藤悠介 on the Web | HTK http://bit.ly/spRP0m

文献

<html> <div class="amazlet-box" style="margin-bottom:0px;"><div class="amazlet-image" style="float:left;"><a href="http://www.amazon.co.jp/exec/obidos/ASIN/4627847114/r4wh-22/ref=nosim/" name="amazletlink" target="_blank"><img src="http://ecx.images-amazon.com/images/I/519Jh4Vxl9L._SL160_.jpg" alt="フリーソフトでつくる音声認識システム - パターン認識・機械学習の初歩から対話システムまで" style="border: none;" /></a></div><div class="amazlet-info" style="float:left;margin-left:15px;line-height:120%"><div class="amazlet-name" style="margin-bottom:10px;line-height:120%"><a href="http://www.amazon.co.jp/exec/obidos/ASIN/4627847114/r4wh-22/ref=nosim/" name="amazletlink" target="_blank">フリーソフトでつくる音声認識システム - パターン認識・機械学習の初歩から対話システムまで</a><div class="amazlet-powered-date" style="font-size:7pt;margin-top:5px;font-family:verdana;line-height:120%">posted with <a href="http://www.amazlet.com/browse/ASIN/4627847114/r4wh-22/ref=nosim/" title="フリーソフトでつくる音声認識システム - パターン認識・機械学習の初歩から対話システムまで" target="_blank">amazlet</a> at 10.04.24</div></div><div class="amazlet-detail">荒木雅弘 <br />森北出版 <br />売り上げランキング: 26725<br /></div><div class="amazlet-review" style="margin-top:10px; margin-bottom:10px"><div class="amazlet-review-average" style="margin-bottom:5px">おすすめ度の平均: <img src="http://images-jp.amazon.com/images/G/09/x-locale/common/customer-reviews/stars-5-0.gif" alt="5.0" /></div><img src="http://images-jp.amazon.com/images/G/09/x-locale/common/customer-reviews/stars-5-0.gif" alt="5" /> パターン認識，機械学習を通して音声認識を学ぶ人に最適<br /><img src="http://images-jp.amazon.com/images/G/09/x-locale/common/customer-reviews/stars-5-0.gif" alt="5" /> まずはこれ．パターン認識・機械学習の初学書<br /></div><div class="amazlet-link" style="margin-top: 5px"><a href="http://www.amazon.co.jp/exec/obidos/ASIN/4627847114/r4wh-22/ref=nosim/" name="amazletlink" target="_blank">Amazon.co.jp で詳細を見る</a></div></div><div class="amazlet-footer" style="clear: left"></div></div> </html>

「フリーソフトでつくる音声認識システム / 荒木」の式13.6、P(Wi|Wi-2,Wi-1)=C(Wi-2,Wi-1,Wi)/C(Wi-2,Wi-1)をP(Wi|Wi-2,Wi-1)=C(Wi-2,Wi-1,Wi)/C(Wi-1,Wi)と間違って書いてある?

<html> <div class="amazlet-box" style="margin-bottom:0px;"><div class="amazlet-image" style="float:left;"><a href="http://www.amazon.co.jp/exec/obidos/ASIN/4274132285/r4wh-22/ref=nosim/" name="amazletlink" target="_blank"><img src="http://ecx.images-amazon.com/images/I/41W773XYGWL._SL160_.jpg" alt="IT Text 音声認識システム" style="border: none;" /></a></div><div class="amazlet-info" style="float:left;margin-left:15px;line-height:120%"><div class="amazlet-name" style="margin-bottom:10px;line-height:120%"><a href="http://www.amazon.co.jp/exec/obidos/ASIN/4274132285/r4wh-22/ref=nosim/" name="amazletlink" target="_blank">IT Text 音声認識システム</a><div class="amazlet-powered-date" style="font-size:7pt;margin-top:5px;font-family:verdana;line-height:120%">posted with <a href="http://www.amazlet.com/browse/ASIN/4274132285/r4wh-22/ref=nosim/" title="IT Text 音声認識システム" target="_blank">amazlet</a> at 10.05.31</div></div><div class="amazlet-detail">鹿野清宏河原達也山本幹雄伊藤克亘武田一哉 <br />オーム社 <br />売り上げランキング: 235542<br /></div><div class="amazlet-review" style="margin-top:10px; margin-bottom:10px"><div class="amazlet-review-average" style="margin-bottom:5px">おすすめ度の平均: <img src="http://images-jp.amazon.com/images/G/09/x-locale/common/customer-reviews/stars-5-0.gif" alt="5.0" /></div><img src="http://images-jp.amazon.com/images/G/09/x-locale/common/customer-reviews/stars-5-0.gif" alt="5" /> 今すぐ音声認識システムがあなたの物に<br /></div><div class="amazlet-link" style="margin-top: 5px"><a href="http://www.amazon.co.jp/exec/obidos/ASIN/4274132285/r4wh-22/ref=nosim/" name="amazletlink" target="_blank">Amazon.co.jp で詳細を見る</a></div></div><div class="amazlet-footer" style="clear: left"></div></div> </html>

rubyhtk : Ruby wrapper of HTK (HMM Toolkit)

HTK Book (Ver 3.4.1) 覚え書き

Fig 7.4 : Full covariance の説明
- InvCovar
- LLTCover （Choleski分解）

Fig 7.5
- StreamInfo
- SWeights

p.116 : master model file
- ~xxx 一覧

p.117 : HMMSets
p.127 : GConst

インストール作業メモ

Vine 3.x / 4.x 環境

 $ tar xvfz /path/to/HTK-3.4.1.tar.gz
 $ tar xvfz /path/to/HDecode-3.4.tar.gz
 $ cd htk
 $ sh configure
 $ make all hdecode
 $ su
 # make install install-hdecode
 $ /usr/local/bin/HList (for test)

HTK形式のデータを扱う

MFCCをテキスト形式に変換する

HList -r FAC_13A.mfc > FAC_13A.data

HTKデータをmatlabから使う

HTKのMFCC計算をできるだけmatlabで再現しようという試み。 readhtk.m というスクリプトも紹介されている。

http://www.ee.columbia.edu/~dpwe/resources/matlab/rastamat/mfccs.html

音響モデルの学習

参照「フリーソフトで作る音声認識システム」11章

時間の指定と表記

ラベルファイルの時間の単位は1,000,000分の1秒（百万分の１秒）。
config ファイルのサンプリング周期などの指定の単位は 10,000,000分の1秒（一千万分の１秒）。

動的特徴量

HTKBook によると一次微分も二次微分も K=2 がデフォルト(DELTAWINDOW, ACCWINDOW)。前後あわせて合計5フレームの傾き。

特徴量

覚え書き

_Z : ケプストラム平均正規化を行うための特徴量

ファイル名

ファイル名（の拡張子を除いた部分）は「正解ラベルと認識結果の比較」など、さまざまな場面でデータの識別子として用いられる。特に話者適応などが絡むと複雑。

注意深くマニュアルを読むか、サンプルのファイル命名規則に従うのが無難。

コマンド

データに時間情報つきのラベルが必要なコマンド

HInit : ビタビ学習
HRest : 再推定

データに時間情報つきのラベルが不要なコマンド

HCompV : 状態をすべて同じ値で初期化。デフォルトは分散のみ求める。-m オプションで平均も更新。
HERest : 連結学習による再推定

作業の流れ

「フリーソフトで作る音声認識システム」11章の流れ

音声(MFCC)と、それに対応する時間つきラベルを用意する。
HMMの初期モデル（テキストファイル）を用意する。
HInit でモデルファイルを更新。MFCCファイルと時間ラベルを用いる。
HRest でモデルファイルを更新。MFCCファイルと時間ラベルを用いる。
hmmファイルをくっつけてhmmdefsファイルを作る。
hmmlistファイルを作る。モデルの名前を並べる。
文法ファイル（単語のネットワーク）を作る。HParse で net.slf に変換する。
単語辞書ファイル(voca)を作る。単語とモデルの対応づけを与える。
HVite で認識結果を得る。
- 引数でvoca, hmmlist, MFCCファイルを与える。
- オプションでHMM定義ファイル、認識結果（出力）ファイル名、文法ファイル(net.slf)を与える。

連結学習を使う作業の流れ：HTKBookのチュートリアル、 rubyhtk

音声(MFCC)と、それに対応する時間なし音素ラベル(*.lab) を用意する。
HMMの初期モデル（テキストファイル）を用意する。
HCompV -m ですべてのモデルに共通な平均と分散を学習する。
- 一度実行してすべてのモデルの初期値としてコピーすればよいはず。
  - rubyhtk では一つのモデルファイルについて一回実行すればよいが、実際には同じものを何度も出力している。(lib/model.rbのcompメソッド)
- オプション -S でスクリプトファイル（１行について一つずつMFCCファイルのパスが書かれたテキスト）を指定。-M で出力ファイルを書き出すディレクトリを指定。
- 引数でモデルファイル（一つの音素モデルに対応する）の場所を指定。

HERest で連結学習。
- 引数でhmmlistファイルを与える（モデルの名前が並んでいる）。
- オプション -L で音素ラベルファイルのあるディレクトリ。-S でスクリプトファイル（上述）。-M で出力ファイルを書き出すディレクトリを指定。-C で config ファイルを指定。-s で出力ファイルと一緒に書き出す統計量ファイル名(stats)を指定。
  - mfcファイルの拡張子をlabに読み替えて-Lで指定したディレクトリを探して、ラベルファイルにアクセスする。
- この処理で stats と同じ場所に newMacros ができる。

以下を繰り返して所望の混合数にする
- HHEd でモデルの混合数を増やす。
  - 引数でmixup.hed（後述）と、config.herest ファイルを指定
  - オプション -H でマクロファイルnewMacrosを指定。-M で出力ディレクトリを指定。
- HERest でさらに連結学習。
  - 引数でhmmlistファイルを指定
  - オプション -L で音素ラベルのディレクトリ。-S でスクリプトファイル。-H で入力する newMacros ファイルを指定。-M で出力するディレクトリを指定。-C で config.herest を指定。-s で出力する stats ファイルを指定。

HViteで認識結果を得る。
- 引数で dict および hmmlist を指定
- オプション -H で newMacros （学習されたHMM定義）。-S で評価したいMFCCのリスト＝スクリプトファイル（テキスト）。-w で HParse された slf 文法ファイル。-i で認識結果。

[mixup.hed]
LS #{input.dir}/stats
MU +1 {*.state[2-19].mix}

[config.herest]
SOURCEKIND = MFCC_D_A_0
TARGETKIND = MFCC_D_A_0

HERest

  -H : MMF マスターモデルファイル
  -L : ラベル
  -S : データ
  -d : 入力ディレクトリ
  -M : 出力ディレクトリ
  -s : 出力 stats

HResult

  -p : コンフュージョンマトリクスを出す
  -w : ワードスポッティングモード (時間ラベルが必要）

参照と仮説の単語列をDPマッチングして比較できる。

無視したい単語を指定できる。 sil を指定するなど。

荒木雅弘「フリーソフトで作る音声認識システム」11章

動的特徴量を使わない（簡略化）

設定ファイル

config.hcopy

SOURCEFORMAT = NOHEAD
SOURCEKIND = WAVEFORM
SOURCERATE = 625
TARGETKIND = MFCC
TARGETRATE = 100000.0
WINDOWSIZE = 250000.0
USEHAMMING = T
PREEMCOEF = 0.97
NUMCHANS = 24
NUMCEPS = 12

proto/hai.hmm

~o <VecSize> 12 <MFCC>
~h "hai"
<BeginHMM>
<NumStates> 5
<State> 2
<Mean> 12
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 
<Variance> 12
1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 
<State> 3
<Mean> 12
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 
<Variance> 12
1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 
<State> 4
<Mean> 12
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 
<Variance> 12
1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 
<TransP> 5
0.0 1.0 0.0 0.0 0.0 
0.0 0.5 0.5 0.0 0.0 
0.0 0.0 0.5 0.5 0.0 
0.0 0.0 0.0 0.5 0.5 
0.0 0.0 0.0 0.0 0.0 
<EndHMM>

マイク入力でHViteによる認識

Ubuntu 10.10 でうまく動かない。カーネルから opensoundsystem がなくなったため。padsp (pulseaudio も使えない。

config.hvite-mic : HVite でマイク入力を使う場合に使用。MFCファイル名を指定しなくてよい。

SOURCEFORMAT = HTK
SOURCEKIND = HAUDIO
SOURCERATE = 625
TARGETKIND = MFCC
TARGETRATE = 100000.0
WINDOWSIZE = 250000.0
USEHAMMING = T
PREEMCOEF = 0.97
NUMCHANS = 24
NUMCEPS = 12
USESILDET = T
MEASURESIL = F
OUTSILWARN = T
ENORMALISE = F

HVite -C config.hvite-mic -H hmm1/hmmsdef.hmm -i reco.mlf -w net.slf voca.txt hmmlist.txt

サイト検索

nishimotz
nvda_hiroshima
playground
portal
project
twcu2010
wiki
7-Zip (7z)
5374
a2ps
academic life
alexa
alien
C言語における多次元配列
alsamixer
Amazon WorkMail
AMBULANT
AMIS
amixer
Android adb
Android NDK
Android TalkBack
Android
AngularJS
ansible
ant
apache
APFS
arecord
ASP.NET
Asterisk
Audacity
AutoHotkey
AWK
AWS Amplify
aws
awscli
bash
ベイズの定理
find_bakfile
bzrからgitへの移行
Bazaar 分散バージョン管理システム
bfg
Google BigQuery
bitbucket
Bluetooth Low Energy
Boehm GC
Boolean
点字
BrailleBlaster
BRLTTY
bzr shelve
bzr vs git
bzrtools
C言語への導入
calplot / july / calmap
capistrano
chalice
ChaSen
chdir
cheat
checkinstall
chmod
chocolatey
Google Chrome
chruby
cloudvox
Google Colab
コメントアウト
C++
cppcheck
CVS
cygwin
DAISY
ddskk
delicious
Delphi
DHT11
dialog
Galatea Dialog Studio による実習
DialogStudio における Rails アプリケーション
Dialog Studio for Windows
Dialog Studio
Django
Docker
dokuwiki
ドラゴンスピーチ
Dropbox
DynamoDB
easy_install
Eclipse
Emacs po-mode
Emacs
環境変数
EPUB
espeak
evernote
Every Layout
FaceMaker
facesynthesizer
FastICA
ffmpeg
find
flutter
Galatea
GalateaTalk
gcloud
gettext
gh
git add
git branch
git checkout
git diff
git fetch
git flow
git lfs
入門git（オーム社）読書メモ
git_pull
git push
git_remote
git reset
git sparse checkout
git stash
git submodule
git svn
git tag
git : バージョン管理システム
GitHub Actions
github
GLUT
Go
Google Apps Script
Google Assistant
gparted
group
grunt.js
gspread
Helix Server
heroku
hgignore
homebrew
HTK : The Hidden Markov Model Toolkit
HTML5
HTS
httpie
インタフェースの原則 1996-2009
HVite
iconv
igo-py
マイナンバーカード
ionic
IoTLT 広島
iPad
ITBC2
iTunes
日本語エンコーディング
japanize-matplotlib
Java Access Bridge
Java
JavaFX
Javascript STAR
JavaScript
Jindigo
Jinja
JNA
jPlayer
jQuery
jruby
jslint
json
Julius progout
Julius
Jupyter
KyTea
latex
launchpad.net
launchpad
liblouis
LibreOffice
libsvm
Linux
リスト内包表記
対数尤度の計算
logrotate
Lotus Symphony
lv
LXDE
M5Stack
MacPorts
Mailman
MaixPy
make
markdown
marsyas
matlab
MD5
mecab
mechanize
バージョン管理システム Mercurial
mermaid
MicroPython + Raspberry Pi Pico
MicroPython
Microsoft Speech Platform
MMDAgent
MMDAI
mod_rewrite
MongoDB
mount
mpremote
mruby
MSAA
MXML
MySQL
n
naist-jdic
namazu
Next.js
nginx
nkf
NLTK
node.js
のどか
numpy
NVDA add-on
NVDA Dropbox addon
NVDA globalPlugins
NVDAユーザ会広島
NVDA How To
NVDA Ticket 1-99
nvda_ticket_100-199
nvda_ticket_200-299
nvda_ticket_600-699
nvda_ticket_index
NVDA翻訳グループ
NVDA
nvdajp bazaar
nvdajp_braille
NVDA certFile
nvdajp_chardesc
NVDA のデバッグ
nvdajp 開発環境
NVDA 日本語版の IME 対応
nvdajp_jtalk
NVDA日本語版における MS Speech
NVDA 日本語版における scons
nvdajp 翻訳
NVDA日本語拡張
NVDA 日本語チーム
OAuth2
Octave
OmegaT
One-pass アルゴリズム
Open JTalk
OpenAI
OpenAL
OpenCV
OpenFrameworks
OpenKinect
OpenMary
OpenNI
Open Sound System
openssl
Orca
OWASP ZAP
palmkit
pandas
pandoc
Passenger
パスワードマネージャー
PDF
PHP
phpMyAdmin
phpunit
pik
pip
pm2
Amazon Polly
PortAudio
postfix
Power Automate Desktop
power-assert
Windows PowerShell
島根県CMS
インタフェースシステムの導入原則
インタフェースの原則
principles-of-interface
pukiwiki
PulseAudio
PureData
py2exe
pyAA
PyAudio
PyCon mini Hiroshima
PyQt4
PyScripter
PySimpleGUIWx
PySpark
pyssp
pytest
Python における括弧の機能
Python におけるビルトイン関数
Python CSV
Python datetime
Python dateutil
Python dict
Python encode
Google App Engine / Python
python で mecab
OrderedDict
Python packaging
Python Requests
Python で Thread
Python + Ubuntu
Python unicodedata
Python unittest
Python vs Ruby
Python Wave
Python for Windows
Python の with 文
Python WSGI
Python Yield
Python Twitter
Python
pytz
Qt4
Qt5
オープンソース統計解析システム R
rake
rakefile 仕事術
Raspberry Pi
rbenv
ReactJS
Redmond Path
正規表現
強化学習
render.com
Ren'Py
repo
require
Rhodes
RhoHub
RL Toolbox
rsync
Ruby CGI
Ruby Inline
ruby on rails on windows
Ruby on Rails
ruby_struct
Ruby/Tk
Ruby における Wave ファイルの処理
Ruby
ruby 1.9 を使う
rubygems
rubyhtk : Ruby wrapper of HTK (HMM Toolkit)
RVC
RVM
rye
sandbox
scons
スクリーンリーダー
scrubyt
Selenium
senna
serverless
serverspec
shell script
動的ライブラリ
sidebar
signtool
SMIL
Solr
sox
spaCy
Speech Hub
Sphinx
spLibs
split
音声対話エージェント
表計算ソフトウェア
sptk
SQLAlchemy
srilm
SSML
Stable Diffusion
自己紹介と技術情報
Streamlit
文字列のフォーマット
Subversion
svn2git
Swift
swig
SwitchBot
Symfony
tar
TensorFlow
Text Services Framework
tkinter
tmake
Tobi
TortoiseGit
TortoiseHg
tse
TwCmdJtalk
Tween
Twitter
twitter4r
txt2tags
uasyncio
Ubuntu amd64
Ubuntu Customization Kit
Ubuntu Linux
UI Automation
Underscore.js
Unicode
UniDic
unwrap
upysh
Vagrant
バージョン管理
videostudio
Vine Linux
VMware Player
VoiceMaker
VoiceOver
VoiceXML
Visual Studio Code
WAI-ARIA
wavesurfer
Web アクセシビリティ
Webvisum
wget
which
Whisper
Windows Speech
Windows
winget
WordPress
WSL
wxPython
wxWidgets
xclip
xgettext
xsendkey
yard
yarn
YouTube
zappa
Zaurus
Zend Framework
Zoom

htk.txt · 最終更新: 2011/11/08 14:46 by Takuya Nishimoto