ベイズの定理
- Wikipedia日本語版の記事はパターン認識に関する説明が不足。
音声認識におけるベイズの定理
音声認識におけるベイズの定理は、データベース(コーパス)をたくさん集めて「音響モデル」と「言語モデル」の統計モデルを精緻にすればするほど認識性能が上がることを保証してくれる理論である。
この枠組みの統計的パターン認識手法は、文字認識などさまざまな分野に応用できる。
単語音声認識の例で説明する。
- A: 観測信号(音声信号。一般にはケプストラム)
- B: 認識対象の語(例えば「はい」「いいえ」)
信号Aが観測されたときに、それが単語Bである確率を「はい」「いいえ」のそれぞれについて求める。 この確率が大きい方の(最大となる)単語を「認識結果」とする。
ベイズの定理により
P(A|B) P(B) P(B|A) = --------------- P(A)
上記の確率(左辺)は右辺と等しい。
P(A) はすべてのBについて共通であるので、左辺の大小関係を「はい」「いいえ」について比較する場合には、計算する必要がない。 すべての場合の確率を合計して1にするためには必要な項である。
P(A|B) は「ある単語Bという条件における観測信号Aの観測されやすさ」である。 音声認識においては「音響モデル」と呼ばれる。
音響モデルは音声コーパスから得ることができる。 具体的にはBが「はい」の場合の P(A|B) は、「はい」という単語の発話について、大量の音声信号を収集し、それらの分布を求めることに対応する。
- 音響モデルの構築ツール htk
P(B) は事前確率であり、この例では「はい」「いいえ」のそれぞれが(ある状況下で)発話される確率である。 一般に音声コマンドの単語認識であればすべての単語が等確率で発話される(「はい」も「いいえ」も確率 0.5 )と考える。
音声認識におけるP(B)は「言語モデル」と呼ばれる。 もしBを「単語列」と考えて連続音声認識をする場合は「日本語の文法に従っている単語列ほど観測されやすい」といった統計的性質を持つ。 「発話の書き起こしコーパス」「新聞記事」「Webからクロールしたテキスト」から統計的言語モデルを構築することが多い。