ユーザ用ツール

サイト用ツール


project:open_source_speech_technology

オープンソース音声技術の支援

趣旨

擬人化音声対話エージェントツールキット Galatea Toolkit は、広く人間と機械の音声対話の技術を開発・普及するべく、以下の特長を持つ技術として開発されました。

  • 人間の顔と表情を持ち、音声で対話するエージェントを作成できる
  • 顔、声、音声合成テキスト、認識文法、対話の流れなどがカスタマイズ可能
  • 構成要素(音声認識、音声合成、顔画像合成など)を別々に利用できる
  • オープンソース、無償で利用でき、商用利用も可能

Galateaプロジェクトの母体であったコンソーシアム(ISTC)の活動は2009年に終了しました。 これを踏まえて、私は

  • 音声関連技術のオープンソース活動に貢献していただける方の支援
  • オープンソース音声技術をベースとしたビジネス創出の支援
  • 障害の有無にかかわらず誰もが情報にアクセスできる基盤としての音声言語技術の整備

を行う活動に取り組んでいます。

nishimotz アットマークを入れる gmail.com にお気軽に御連絡ください。

活動形態の検討

2011-11-04 東京大学との挙動研究に関するご案内を削除しました。今後は オラビー・ジャパン としてお手伝いさせていただきます。

新しい組織設立の提案

今後の Galatea Toolkit について、このような趣旨の活動を遂行する非営利組織の設立が考えられます。具体的には、以下のような考え方の組織です:

  • オープンソースソフトウェア開発に貢献する
  • 用途をなるべく限定せず、多様な応用に対応する技術を育成する
  • オープンソースソフトウェア技術によりビジネスや雇用を創出する
  • 技術の非専門家、ユーザの視点でサポートを行う
  • 秘密保持、知的財産権管理などを適切に行う
  • 商用ソフトウェアに関する既存のビジネスを破壊しない
  • 大学等の研究者にとって望ましい協力関係を構築する
  • 既存のプロジェクトとの活動の重複を避ける
  • 運営や活動方針などの情報を積極的に公開する
  • 自発的に(楽しく)活動する

もう少し活動の内容を具体的に挙げてみます:

  • ソフトウェアの配付、カスタマイズ用データの提供
  • サポート、カスタマイズ、講習会などの業務
  • 技術情報の提供・執筆
  • 事業者、研究者、開発者などの仲介

「ビジネスの手法で社会に貢献する方法」について、いろいろな立場の方の御意見を伺いたいと思います。

既存の組織を活用させていただく可能性もありますが、その場合にも、本稿の考察を踏まえて検討をするつもりです。

準備段階としてのオープンソースコミュニティ

ビジネスと直接つながらない活動をサポートするのであれば、まずはオープンソースコミュニティが活動の拠点です。

また、ビジネスでの利用をお考えの方についても、成果を部分的に無償公開することが戦略的に有効、という場合は、 オープンソースコミュニティでの支援が可能です。

galatea プロジェクト

現在は sourceforge.jp に galatea プロジェクトのサイトを開設しています。

西本個人も関連する技術情報を提供しています。

galatea プロジェクトはさらに、julius や galateatalk など、関連プロジェクトの成果を活用させていただいています。

今後の活動方針についていくつかの案:

  • 修正の差分を随時リリース
  • 一ヶ月ごと(例えば毎月第3日曜日)に差分を適用したパッケージ更新
  • 半年くらいの周期で大きな改良・拡張のマイルストーンを設定する
  • 各パッケージやWiki文書について著作者や貢献者のクレジットを整備する

具体的な作業についての案:

  • Linux版はUbuntuのリリースごとに互換性確認
  • Windows版はWindows7互換性の確認
  • Linux/Windowsともに64bit環境の互換性検討
  • 音声合成は現在のバージョンとUnidic非使用版を選択可能に
  • 声と顔のカスタマイズに関連する機能整備・改良
  • Linux版は内部処理をUTF-8に徐々に移行する
  • Ruby, Python, JavaScriptなどアプリ開発例の蓄積
  • 次世代のAPI模索

NVDA日本語化プロジェクト

スクリーンリーダNVDA日本語化プロジェクトのメンバーとして、 日本語テキスト音声合成技術の組み込みに関するお手伝いをしています。

Ora-be プロジェクト

西本が IPA 未踏ソフトウェア事業に採択されて、2005年に開発をはじめた「オラビー:ラジオ番組投稿支援システム」は、 2009年よりオープンソースプロジェクトとして取り組んでいます。

背景

Galatea Project では2000年~2002年度に情報処理技術振興協会(IPA) の支援 (2000, 2001年度 独創的情報技術育成事業、2002年度 重点領域情報技術開発事業) を受け、財団法人京都高度技術研究所 (ASTEM) とIPAの契約の元に、主に大学の十数名の研究者が協力して開発を行ないました。この成果は2003年に「IPAライセンス版(galatea-linux-ipa および galatea4win-ipa)」としてリリースされました。

2003年11月から2009年3月まで、情報処理学会 音声言語情報処理(SLP)研究会のもとで音声対話技術コンソーシアム(ISTC) が活動を行い、このツールキットの改良を行いつつ、技術講習会などを行いました。この期間の成果は「IPAライセンス版のアップデート」という形でのリリースを続けていく予定です。

この活動にずっと関わってきた私は「オープンソースプロジェクトであることの意味」を改めて考え直しているところです。

すでに商用の音声合成エンジンが複数存在します。一方で、商用のエンジンに依存せず行いたい研究開発や標準化検討などの活動は重要です。

例えば、スクリーンリーダや音声ブラウザなどのアクセシビリティ支援技術は、そもそも市場が小さく、ビジネスになりにくい、だから、こうした技術に使われる音声合成エンジンが無償であることに意味がある、という意見も頻繁に伺います。

一方で、ビジネスになるかどうかは「やり方次第」であり、既存のビジネスを破壊することが一方的な正義であってはいけない、という立場も納得できます。

コミュニケーション手段としてのオープンソース活動の意義

私はオープンソースを「オープンプロセス=開発プロセスをオープン化した結果として生じる成果」と捉えています。オープンソースの発展は、「インターネットの速度感」に「ソフトウェア開発の速度感」が追いついてきた過程だと思います。その意味で、例えばCVSからGITへとオープンソフト開発のモデルが進化したことを好ましく思います。

また、いわゆるフリーソフトであることを保証するライセンスとは、利用、配付、改変に関する「コミュニケーションのコスト」を不要にするシステムと捉えています。

オープンソースソフトウェアでビジネスを行っていただくことは有意義だと私は考えています。既存の市場の構造にとらわれない枠組みを実現することは、新しいビジネスモデルの創出につながると期待できるからです。

例えば Galatea Toolkit は経済産業省の外郭団体であるIPAから支援を受けており、これは「いずれ経済活動に貢献せよ」という趣旨の支援であったと私は考えています。実際「IPAライセンス版」のツールキットは成果がどのように製品化されているか完全には把握できていませんが、「どこどこのなになには GalateaTalk の合成音声らしい」という話はときどき研究者同士で語られています。

一方で、プロジェクトの目標が野心的であればあるほど、研究開発には時間がかかります。Galatea Toolkit が本来の目標を達成するためには、技術や世の中の動向を正しく把握しながら、「売り物になる技術」に向かって進化させていく必要があります。企業に取り組んでいただくにはリスクがあります。研究者が本務の合間に取り組む活動としても限界があります。

会員制コンソーシアムの限界

この6年間はコンソーシアムという形で活動をさせていただきました。会員の方から多くの御意見を伺うことができ、有意義ではありました。しかし、一方で、コンソーシアムの外部の方から具体的な御要望や依頼をうけたときに、個別に対応させていたくための組織としては若干不適切のようにも感じました。

例えば、コンソーシアムが開発に関わり、会員向けに配付しているソフトウェアがあるとします。そしてこの技術をベースにある企業が独自に仕様を作って製品を開発したいとします。ベース技術の提供を受けるために会費を払っていただいてコンソーシアムの会員になっていただいたあとで、さらに「カスタマイズについて相談したい」という場合には「ベース技術に詳しい研究者・研究機関と個別に相談」ということになります。そのようなサービスを提供するにあたっては、守秘義務契約なども必要です。新たに技術者を探して作業を依頼する場合もあるでしょう。

キャズムを超えるために

音声認識がキャズムを超えるには、というテーマのイベントに参加しました。

パネル討論で私は「オープンソースとアクセシビリティについて」質問しましたが、積極的な発言はありませんでした。 その後、ビジネスモデルを成立させるためにいかにコストを下げるか、ベンダーが相互に設計やリソースを共有するか、ソリューションの提案をいかに促すか、といった議論になったのですが、「キャズムを超えるには」と議論していた今回の方々は「アーリーアダプター向けのビジネスの既得権を守りたい」という立場だと感じました。

以下のような発言をいただけたことは評価に値すると思います。

  • 研究者が同一の視点で立つための基盤としてのオープンソース
  • オープンなアーキテクチャの必要性。そのリファレンス実装としてのオープンソースプロジェクトの意義

インターネット技術において、例えば、クラウド化するサービスが多様なソリューションの提案につながっていること、そういったサービスがオープンソース技術を戦略的に利用していることは、広く認知されつつあります。 現在は「無料であること」にバリューを感じておられるアクセシビリティ分野において、特にオープンソース音声技術の問い合わせを私自身はたくさんいただいております。 しかし、音声認識に無関心であったソフトウェア技術者の皆様に、手軽に試していただける音声技術を広めて行きつつ、技術の現状や限界についても正しく認知していただくことは、結果的に「大きな予算で動いている」既存の音声ソリューションを超えた、新しい可能性をもたらすと考えています。

皆様の御意見をお待ちしております。

project/open_source_speech_technology.txt · 最終更新: 2011/11/04 09:18 by Takuya Nishimoto

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki