« 鬼門は商標法#3 | トップページ | 口述試験で問われた部分 »

VOCALOIDの価値

世界初ツンデレボイスナビゲーション機能付のワンセグTV「SEGNITY」、このツンデレボイスに釘宮理恵が声を充てているとの話があります。

この製品の検証ビデオが以下にアップされています、

確かに釘宮ボイスで間違いないようですし、あたかもTVが感情を持ったかのように振舞うのは面白く感じますが、固定メッセージなので、買った当初は面白いと思っても、しばらく経つと飽きるんじゃないかとも思います。







この「ツンデレナビゲーションシステム」は特許出願中だそうですが、まだ未公開なのか公開公報を見ることはできませんでした。

いろいろな装置を作っていると、装置に喋らせたい場合は結構あります。例えば何らかの致命的なエラーが発生したときなどです。このときに音声でその旨が通知できたならば、よりユーザ・フレンドリーなインターフェースとなるのではないかと思います。

むかし、そういうメッセージを音声で出すときには、メロディICで「葬送行進曲」を流すのが定番だったのですけどね。葬送行進曲だけでは状況の詳しい説明ができないですから、合成音声で通知ができればと思っていました。
その音声も、いわゆる「機械音声」っぽいのだとユーザーに無茶苦茶嫌がられれるのですよね。「機械に使われているようで厭だ」とか「感覚的に耳から拒絶する」とかいう意見を聞きました。でも、VOCALOID は違います。知らずに聞いている人には、普通の人間の音声に聞こえ、拒否感は殆ど無いのではないかと思います。

現在の装置は、固定音声を予め録音することによって自然な人間の音声の通知を実現しています。しかし音声データをROMに焼きこんでいるため、SEGNITY のように予め想定したパターンの音声を通知することしかできませんし、そのパターンが膨大に多い場合には実装が極めて困難になります。

よって、状況に対応したメッセージを音声通知するツールとして、「VOCALOID」が活用できればと思うのです。もし VOCALOID がASIC化されて機器に組み込まれ、入力されたメッセージ文字列からリアルタイムに音声出力できるようになれば、装置のあらゆる使用状況において適切な音声通知ができると思います。具体的には、機器のエラーメッセージやガイダンスを音声で通知するなどです。他には、PCアプリケーションの製作者が、エラーメッセージやガイダンスを初音ミクに喋らせることも考えられます。

また、他のブログで、歌詞とメロディをサーバーに入力すると サーバーからMP3 の歌声データが出力されるという "VOCALOID-WEB-API" の概念が記載されていました。このような API が実装されたならば、WEB表現が更に多様化することになるのではないかとおもいます。具体的には、WEBページを音声で読み上げることが極めて簡単にできるようになりますので、自動車の運転中や、通勤電車の中などのように音声のみで情報収集しなければならない場面で、新聞や雑誌のWEBを音声で通知することにより時間が有効に活用できると思います。

|

« 鬼門は商標法#3 | トップページ | 口述試験で問われた部分 »

初音ミク」カテゴリの記事

コメント

Vocaloidは「歌うため」に設計されているので、「喋る事」には向きません。
喋る事に特化した音声合成ソフトウェアもあるので、そちらの方が現実的かもしれませんね。
その技術の名前が体を表して居るのであれば、実に楽器の延長線上にある歌う技術だと思います。

投稿: | 2007年10月15日 (月) 18時17分

コメントありがとうございます。
確かに現状のVOCALOIDは「テキストを喋ること」は不得手とおもいます。いろいろな人が文字入力やテキストスピーチの困難さを嘆いていますので。
でも、その困難さは解決可能に見えるのです。
形態素分析により文章を品詞分解し、かつ読み仮名のみにすることは公知です。あとは品詞毎のアクセントテーブルを通したのちにVOCALOIDに喰わせればいいのではないかと考えています。
あと、既存のテキストスピーチでは抑揚やアクセントをコントロールできないのが不満ですので、その点が解決できないかとも考えています。

投稿: 和泉聡 | 2007年10月15日 (月) 20時28分

ちょっと社名が思い出せないのですが、アナウンスに特化された音声合成ソフトウェアをラジオで紹介しているのを聞いたことがあります。
そちらは、Vocaloidが歌を自然に歌うように、流暢にアナウンスを行っていました。構内アナウンスはそのソフトウェアがやっているという話でした。
おっしゃる要素の、言葉として発するときの抑揚などを解析し、テキストから読み上げられるソフトウェアだったと記憶していますので、もしかすると現状のVocaloidよりも望むものに近いものが既にあるのではないかという気もします。
どちらかというとVocaloidは発声そのもの、アナウンスの研究は、文章の解析や、言葉としての抑揚などの特徴の解析に重心がおかれているようにも思います。歌わせる場合、ディティールの多くは利用者が設定するので当然かもしれませんが。
両方の成果が旨くかみ合えば、もっと自然にはなすようになるのかもしれませんね。
VOCALOID2を喋らせる事は試されている方もいらっしゃいますが、現状ですと、リコーのVC-1(サンプルを聴いたのはもう十年近く前ですが)よりも厳しいです。
あとは、音声テーブルにスピーチを前提としたデータを持てばもう少しマシになるかもしれませんね。
組み込みもそうですが、コンパクトになれば、声を持たない人や失った人もまた自分の声を手に出来るという未来も考えられるのですよね。処理も現状だと結構重装備が必要そうですが。
ちょうど某放送局に馬鹿にされたばかりの技術ですが、Vocaloid2エンジンは「鳴っている」から「歌っている」領域に踏み込んだように聞こえました。
開発されてる方にはまたもっと驚くようなものを見せて(聞かせて)もらえるのかなぁと期待してますが。

そういえば、具体的にはどんな技術でうたっているのかなぁとふらふらしてたところで辿り着きお邪魔いたしました。
長々とすみません。

投稿: | 2007年10月15日 (月) 21時10分

この記事へのコメントは終了しました。

トラックバック


この記事へのトラックバック一覧です: VOCALOIDの価値:

« 鬼門は商標法#3 | トップページ | 口述試験で問われた部分 »