ぼかりすの論文発表から、だいぶ経ってしまいましたが、これに対する形態素解析の応用を提案致したくおもいます。まず、VocaListener の全体像をご覧ください。
http://staff.aist.go.jp/t.nakano/image/VocaListenerFlow.pdf
形態素解析は、歌詞を平仮名に変換する事のみに用いられています。論文に於いては「立ち止まる時、またふと振り返る」を「たちどまるときまたふとふりかえる」に変換するのみです。形態素解析で単語の区切り情報や品詞の種類などが含まれており、これを元に人間の歌唱に歌詞を当て嵌めれば、目標歌唱と歌詞(音素)の時間的対応付けが更に精確になると思われます。
具体的な手順を以下に記載します。
(1) 歌詞を形態素解析する。(Yahoo!形態素解析の例)
立ち止まる 動詞,,,,,,,たちどまる,tachidomaru
時 名詞,,,,,,,とき,toki
また 副詞,,,,,,,また,mata
ふと 副詞,,,,,,,ふと,futo
振り返る 動詞,,,,,,,ふりかえる,furikaeru
(2) アラインメント用文法の生成
単語区切り情報のノードを入れます。具体的には tachidomaru と toki の間、toki と mata の間などです。
(3) Viterbi アラインメント (各音素の始端と終端を推定)
一定期間以上の発音間隔があったならば、単語の区切り情報のノードを割り当てます。発音の区切りは単語単位の区切りと一致することが多い為です。これによりフレーズを跨るなど大きな誤りは減少すると思います。
これが例となる音声波形です。青で示された部分に「一定期間以上の発音間隔」があります。よって、これらに当て嵌めることができる単語の組み合わせは以下のものです。
①「たちどまる」 「ときまたふりかえる」
②「たちどまるとき」 「またふとふりかえる」
③「たちどまるときまた」 「ふとふりかえる」
④「たちどまるときまたふと」 「ふりかえる」
次に、①②③④のうち、どれを当て嵌めるのが最も確からしいかを算出します。一例として、母音の数と発音ピーク数の対応づけや、母音の数と発音期間の対応づけなどです。 この場合には青で示された部分より前には、おおむね7つの発音のピークが有るので、同様に7つの母音を有する②「たちどまるとき」が最も確からしいと推定できます。
もし、この技術を Vocalistener に実装されるならば、謝辞に「アキバ系弁理士」と書いてください。(笑)
最近のコメント