naist_jdic
naist-jdic
naist-jdic とは、ipadic legacy の後継となる(と思われる)日本語形態素解析用辞書である。
chasen および mecab に対応している。いわゆる New BSD ライセンス。
参考記事 http://parame.mwj.jp/blog/0209
unidic との違い
chasen / mecab で使用できる辞書として ipadic の他に unidic http://www.tokuteicorpus.jp/dist/ がある。unidic は独自ライセンスである。 形態素の単位や品詞体系が ipadic と異なっている。
音声合成エンジン GalateaTalk は標準で unidic を使用している。unidic には単語のアクセント情報が含まれている。 GalateaTalk で ipadic を利用することは可能であり、「島根県CMS」pref_shimane_cms では ipadic 版が利用されている。
Ubuntu Linux における naist-jdic
9.04 にて確認。下記のように ipadic を削除してしまうらしい。
$ sudo apt-get install naist-jdic パッケージリストを読み込んでいます... 完了 依存関係ツリーを作成しています 状態情報を読み取っています... 完了 以下のパッケージは「削除」されます: ipadic 以下のパッケージが新たにインストールされます: naist-jdic アップグレード: 0 個、新規インストール: 1 個、削除: 1 個、保留: 31 個。 5513kB のアーカイブを取得する必要があります。 この操作後に追加で 1782kB のディスク容量が消費されます。 続行しますか [Y/n]? n 中断しました。
filelistの比較
-
- /etc/chasenrc
- /usr/share/chasen/dic/ipadic/
-
- /usr/share/chasen/chasenrc
- /usr/share/chasen/dic/naist-jdic/
naist_jdic.txt · 最終更新: 2009/08/31 00:00 (外部編集)