« MIKU_TALK 使用コンテンツについて | トップページ | 400氏のVSQファイル解析 »

ぼかりす

 久しぶりに心踊るような技術が出てきました。まあ聞いてみてください。藤田咲さんが生で歌っているよと言われたら信じてしまいそうな出来ですが、これは「初音ミク」なんですよね。

さて、この「ぼかりす」ですが、2008年5月28日(水)に開催される「第75回音楽情報科学研究会」で研究成果として発表されるVocaListenerという技術だそうです。以下に表題と発表者を引用します。

(9) VocaListener: ユーザ歌唱を真似る歌声合成パラメータを自動推定するシステムの提案   
中野倫靖,後藤真孝(産総研)

 VocaListerner が何をやっているかは現時点では不明です。よって、さっそく後藤真孝さんの素性を調べてみました。とりあえず特許検索ということで、後藤さんの音関係の特許出願及び登録特許を列挙します。リンクを叩くとPDFが開きます。

特開2001-125562 音高推定方法及び装置

(57)【要約】
【課題】本発明は、入力音響信号に対してあるパート(メロディーやベース)の音高推定を可能にするために、混合音中で優勢な音高を推定することを目的としている。
【解決手段】本発明は、入力音響信号に対してマルチレート信号処理をおこなって瞬時周波数を計算し、瞬時周波数に関連した尺度に基づいて周波数成分の候補を抽出する。次に、2種類のバンドパスフィルタ(メロディーライン用とベースライン用)を適用し、それぞれの出力に基づいて、基本周波数(音高)の確率密度関数を求める。そして、マルチエージェントモデルを導入し、その確率密度関数の中で有望な各ピークの軌跡を異なるエージェントが追跡して、それぞれの信頼度を評価する。最後に、最も信頼度の高いエージェントが持つ優勢な基本周波数の軌跡を出力する。

特許3413634 音高推定方法及び装置(上記出願が権利化したもの)

特開2008-058753 音分析装置およびプログラム

(57)【要約】
【課題】 記憶する音モデルの個数が比較的少なくて済み、かつ、高い推定精度で基本周波数を推定できるようにする。
【解決手段】 音モデル補間処理5では、記憶装置に記憶された複数種類の音モデルに補間処理を施し、各音モデルの中間の基本周波数に対応した複数種類の音モデルを生成する。基本周波数の確率密度関数の推定41では、記憶された音モデルおよび補間処理により得られた音モデルを用いて、様々な基本周波数の音モデルの混合分布を構成し、この混合分布が入力音響信号の周波数成分の分布となるように、各音モデルに対する重み値を最適化し、最適化された各音モデルの重み値を音源の音の基本周波数の確率密度関数とする。

特開2008-058754 音分析装置およびプログラム

57)【要約】
【課題】 混合音を示す入力音響信号の周波数成分から各音の基本周波数を推定する際に、基本周波数の誤った推定が行われるのを防止する。
【解決手段】 周波数帯域の制限3では、入力音響信号から音源の音の基本周波数成分または高調波成分となる可能性のある周波数成分を抽出する。基本周波数の確率密度関数の推定41では、抽出された周波数成分が各々高調波構造を有し、異なる基本周波数に対応した音モデルの混合分布から生じたと考え、基本周波数の確率密度関数を推定する。音モデル変形処理5では、その際の誤推定の可能性を低減するための音モデルの変形を行う。

特開2008-058755 音分析装置およびプログラム

(57)【要約】
【課題】 EMアルゴリズムにより、入力音響信号から、鳴っている音の基本周波数を求める際に、楽器固有の事前知識を利用して、精度良く基本周波数を推定する。
【解決手段】 フォーム推定413では、EステップおよびMステップ411により各種の基本周波数に対応した重み値を逐次更新される過程において、音源構造データ413Fにより定義された制約条件を満たすように、重み値のピークの中から、発音されている可能性が高いと推定される音のものを選択する。事前分布付与414では、この選択したピークが強調されるように、各音モデルに対する重み値に事前分布を与える。

特開2008-058885 音高推定装置、音高推定方法およびプログラム

(57)【要約】
【課題】音高を高精度に推定する。
【解決手段】音響推定装置Dは、音響信号Vを複数の音モデルの混合分布としてモデル化したときの各音モデルの重み値ω[F]の分布である基本周波数の確率密度関数Pから音響信号Vの基本周波数F0を推定する装置である。関数推定部20は、重み値ω[F]を更新する単位処理を反復するEMアルゴリズムによって確率密度関数Pを推定する。重み値修正部22は、単位処理で算定された重み値ω[F]に現れる複数のピークのピーク値を増加させた修正値ωa[F]を、次回の単位処理で使用される重み値ω[F]として生成する。音高特定部40は、確率密度関数Pのピークに対応した基本周波数F0を特定する。

特開2008-058886 音高推定装置、音高推定方法およびプログラム

(57)【要約】
【課題】音高を高精度に推定する。
【解決手段】音響推定装置Dは、音響信号Vを複数の音モデルM[F]の混合分布としてモデル化したときの各音モデルM[F]の重み値ω[F]の分布である基本周波数の確率密度関数Pから音響信号Vの基本周波数F0を推定する装置である。重み値算定部23は、音モデルM[F]が音響信号Vの高調波構造を支持する程度を示す推定形状C[F]に基づいて重み値ω[F]を算定する。推定形状特定部21は、音響信号Vの振幅スペクトルSと音モデルM[F]と重み値ω[F]とに基づいて推定形状C[F]を特定する。類否解析部271は、音モデルM[F]とこの音モデルM[F]から特定された推定形状C[F]との類否を示す類否指標値R[F]を算定する。重み値修正部273は、重み値ω[F]のうち類否指標値R[F]が非類似を示す基本周波数Fの重み値ω[F]を低下させる。

 いずれの特許出願も音高(PIT)を高精度に推定するというもので、課題が共通しています。この中で、もっとも最初に出願された特開2001-125562(特願平11-305770)が「ぼかりす」に適用された発明ではないかと推定しました。以下に図5を引用します。人間の歌声を入力として、出力された melody line をボーカロイド2の音階に割り当てれば、かなり正確な音高が初音ミクで再現できるのではないでしょうか。

Jpa_2001125562_fig6

 しかし、「ぼかりす」は、音高(PIT)のみで出力しているにしては自然すぎ、更に幾つかの隠し技を入れているようにも思えます。詳しくは5月28日の有志の報告を待つことにしたいと思います。

 最初の特許を除く5件の特許は産業技術総合研究所とヤマハ株式会社の共同出願だったので、ちょっと驚いてしまいました。初音ミクのヒットの前から着実に活動していますね。この「ぼかりす」の仕掛け人も、恐らくヤマハ株式会社だったのでしょう。この5件の特許の出願日は初音ミク発売のおよそ1年前の2006年9月1日と9月4日で、共同発明者はいずれもヤマハ株式会社の藤島琢哉さんと有元慶太さんです。

追記:MiruSinger:歌を「歌って/聴いて/描いて」見る歌唱力向上支援インタフェース も何か関係するかもしれません。

論文はこちらです。

MiruSinger:歌を「歌って/聴いて/描いて」見る歌唱力向上支援インタフェース」。

 この論文には音高と共にビブラートを自動検出する技術が記載されており、著者のうち2人はVocaListernerと一致しています。よって、「ぼかりす」は MiruSinger と同様に音階と共にビブラートを検出して、VSQに反映させていると思われます。以下に論文の要点を引用します。

3 MiruSinger の実現方法
入力信号中で最も優勢な(パワーの大きい) 高調波構造を求める手法[4]混合音中で最も優勢な音高を推定する手法(PreFEst)[5]推定されたF0 軌跡の1 次差分の短時間フーリエ変換によってビブラートらしさを得る手法[3] を用いた。ただし、混合音からのF0 推定では、中高域で最も優勢な高調波構造を持つF0 がボーカルのF0 であると仮定した。

|

« MIKU_TALK 使用コンテンツについて | トップページ | 400氏のVSQファイル解析 »

初音ミク」カテゴリの記事

コメント

VSQToolsのモアイPです。最近、VSQToolsの子アプリを使って、別の試みをしています。そこで、発見したことは、歌唱学習による調教は「リン」の方が「ミク」より素直な事です。今まで「リン」は殆ど使いませんでしたが見直し中です。
参考までに下記動画を確認してみて下さい。マイリスとから類似(発展中)にリンクできます。
http://www.nicovideo.jp/watch/sm6225105

投稿: モアイPです | 2009年2月22日 (日) 08時08分

始めましてモアイPさん、氷川きよしとは渋い選曲ですね。

リンはクセがあるけど、使いこなすと面白そうですね。見事にコブシが回っているのには感激しました。

投稿: 和泉聡 | 2009年2月23日 (月) 20時57分

VSQmmvによる機械調教データを公開しました。
耳のいい人が調教し直してくれると良いな。
音痴な僕には致命的な障害です。
http://kotaro999.web.fc2.com/

投稿: モアイP | 2009年3月 6日 (金) 22時42分

ぼかりすの様にお手本ボーカルから、DYN,PIT情報を抽出し調教。誤差を計算して、繰り返し調教が出来る。調教支援ツールを公開しています。ノート入力時のタイミング修正、WAVからVSQを自動で生成する機能も持っています。
よろしかったら使って下さい。

http://kotaro999.web.fc2.com/

投稿: モアイP | 2009年4月 4日 (土) 11時05分

お久しぶりです>モアイPさん
面白いツールをご紹介いただき、ありがとうございます。

どのようにして作られているのか興味がありますので、ブログなどで技術情報をご紹介いただければと思います。

投稿: 和泉聡 | 2009年4月 4日 (土) 13時05分

この記事へのコメントは終了しました。

トラックバック


この記事へのトラックバック一覧です: ぼかりす:

» すごいのは「ぼかりす」だけじゃない(その2):すべての曲を初音ミクが歌えたりして [CloseBox and OpenPod]
 前回の「サビ抽出プレーヤー」に次いで、「ぼかりす」作者と目されている産業技術総 [続きを読む]

受信: 2008年5月 1日 (木) 07時35分

« MIKU_TALK 使用コンテンツについて | トップページ | 400氏のVSQファイル解析 »