« がくぼがきた日 | トップページ | ダンシング☆サムライ »

ミクの学園ラブソング

vocasim 0.0.4 を使っていただいたnobitan さんのオリジナル曲を紹介します。あのスクリプトからこの作品を作り上げるまでは大変だったと思います。

nobitanさんには、ブログに vocasim の改良点の示唆もいただいておりますので、以下に検討いたします。

http://vocaloid.cocolog-nifty.com/blog/

課題1 音量調節ができない
ボーカロイドを人間らしく歌わせるには、何より抑揚をきっちりつける必要があります。特に音量のバラツキの多いリンレンでは、必要不可欠な作業です。しかしながら、vocasim は人間歌唱のシミュレートとして、音符の並びからフレーズを自動解析し、フレーズごとに盛り上がる箇所を決定しています。つまり、一つ一つの音符に対しては自動で音量が決まってしまい、ユーザーが演出することができません。じゃあ、vocasim 通した後で修正すれば?という考え方もありますが、ここで問題となるのはvocasimの微細振動データ。人間音声の不安定感を出すために、微妙なPIT やDYN変化が続くため、音量調整などをしてしまうと、この微細振動のデータが消えてしまうのです。

課題1の解決方法は、「事前に調教済みのデータの場合にはフレーズ自動解析を止めて、調教済みのDYN/PITを目標値としてPID制御する」ことです。これによりユーザが調教済みのデータを生かし、なおかつvocasim固有の微細振動を加えることが可能となります。

課題2 はっきりと発音しすぎてしまう
vocasimは、「ぼかりす」や「ぼかんないんです」の技術を参考に開発されており、特に音の立ち上がりのPIT変化やDYN変化に、通常の調教では考えられないほどの振幅を描きます。プレパレーションとかオーバーシュート、とかいう部分です。ところがこいつがクセモノで、全ての音符に一律に掛かってしまうため、ここはレガートにしたいなーという箇所全てが明瞭な発音となってしまいます。全体的にスタッカートな感じになってしまうのです。

この解決方法は、現在検討中です。なにか簡単な手段があるような気がします。

課題3 ある程度調教済みのデータを通すと悲惨なことに。
調教をしていると、音符を分割するケースが割と頻繁に発生します。あたりまえですがvocasimは、こうした音符分割のデータを普通に分かれていると判断し、それぞれに立ち上がりの極端なカーブを作ってしまうので、結果調教が進んでいるデータであればあるほど妙なことになってしまいます。

この解決方法は、音符分割のパターンを内部に記憶して、それらを1つの音符として扱うことです。例えば「ぼおかろいど」をそのまま vocasim に通すと「ぼ・お・か・ろ・い・ど」に分割して発音しますが、母音が共通する部分の「ぼお」は1つの音符として一連称呼した方が自然になるかと思います。

課題4 ビブラートの設定ができない。
基本的にvocasimのビブラートの掛かり具合は、フレーズ解析により決定されているようで、フレーズの一番後ろで延ばしている音に対して深くかかります。ところが、歌い手は常にそういった歌い方をしているわけではなく、むしろここはビブラートかけたくないなぁとか、そういった箇所もあるわけです。これらをどうやってコントロールするのか・・・という点も課題の一つでした。

この解決方法は「ビブラートなしのオプションを設けて、Vocaloid editor 側でビブラートを掛けることです。現在の vocasim 0.0.8 に搭載されていますのでご利用ください。

余談ですが、nobitanさんのブログのタイトルを見て、「目指せP」というプロデューサー名称が付与されるに違いないと思ったのは自分だけでしょうか。

|

« がくぼがきた日 | トップページ | ダンシング☆サムライ »

初音ミク」カテゴリの記事

コメント

ご紹介どうもありがとうございます!
さっき見たんですが、目指せP?かと思ったら、死亡フラグPとタグが付いてました(笑)こうして誰かにP名つけてもらえるなんて、なんだか嬉しいなぁ、とニヤニヤしております。これもvocasimのおかげです(^-^*

さて、vocasim課題点における、プログラム側からの解決案は、興味深く読ませていただきました。課題1の解決案については、まさにおっしゃるとおりではないかと思います。
 多分、ほとんどの調教についてはPITは最終局面でチマチマいじると思われるので、課題はDYNだけかなぁという気もします。
 フレーズ解析というアプローチは、vocasim の大きな特徴の一つですし、個人的にもこういう考え方は大好きです!将来的にこのプログラムがVOCALOID EDITOR に正式採用されちゃうとか大きく発展したときに、歌詞データを解析して日本語の特性から見たフレーズの決定なんてことも出来るかも知れませんし。なるべくこの機能を生かして調教できると面白そうですよね。
 例えば、フレーズを自動解析するという部分についていくつかユーザー側が制御出来る仕組みを作るっていうのはどうなんでしょうか。例えば、ブレス音符については自動的にフレーズの区切りと判断するようにしておいて、ユーザー側でのフレーズ区切りをある程度制御できるようにしておき、DYNについては、調教済みのDYNデータとの加算で値を決定するとか・・・そうすれば、ユーザー側でもどのようにvocasim がデータを加工するのかを頭に描きながら、基礎的な調教作業は先に進めることが出来ちゃったりするので、意外と使い勝手がよいかも。
あ、でも作るのがとっても大変そうですね(^^; まあアイデアのひとつということで、聞き流していただければと思います。

また、先ほどvocasim008 もためしに使ってみました。これからどこがどのぐらい変わったのか見てみて、いろいろと遊ばせていただこうと思います。
一点、コマンドラインからのパラメータの渡し方なんですが、現在パラメータを二バイトコードで渡す仕組みになってますよね?環境によってはFEPがコマンドラインで使えない人もいるのでは・・・と思ってしまいました。いや、自分がそうだったので(^^;
ソースのほうを書き換えたので問題はないのですがEXEの人がちょっと困る人がいるかも知れませんです。こちらもご参考までに・・・

ではでは。

投稿: nobitan | 2008年8月 1日 (金) 01時34分

今日から、iPod にミクの学園ラブソングを入れて聞いています。

色々とアドバイスありがとうございました。ブレスをフレーズの区切りとするのは面白い発想と思いました。人間が歌うとき、フレーズの区切りで息継ぎをしますから、逆に息継ぎをフレーズの区切りとしてボーカロイドのフレーズ単位を決めるのは理論的にも正しいと思います。

DYNは、目標値とする以外にも「単純に加算」でも、ユーザーの意図を反映する効果は出るのかもしれませんね。どちらが適切か、ちょっと試してみます。

オプションの半角対応も次バージョンでおこなう予定です。

投稿: 和泉聡 | 2008年8月 2日 (土) 00時11分

コメントを書く



(ウェブ上には掲載しません)




トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/110295/42025559

この記事へのトラックバック一覧です: ミクの学園ラブソング:

« がくぼがきた日 | トップページ | ダンシング☆サムライ »