DTMマガジン1月号増刊 「the VOCALOID CV01初音ミク」に掲載された、ヤマハ株式会社の剣持氏インタビューについて調べてみました。
◆足りない音階はピッチ変更することについて
剣持 ピッチの数は12音階全部を録るのが理想は理想なのかもしれませんが、録音に時間をかけすぎるとシンガーさんの声が変わったりしますから、実際は12音階すべては録らないようになっています。足りない音階は合成する際に内部的にピッチを変えて出力します。
(the VOCALOID CV01 初音ミク 37頁より)
12音階全てのデータを持たずに、内部的に変換を掛けることにより、シンガーの録音時間を短縮することにより声の変化を最小化するという効果が生まれますが、元々はVOCALOIDの音声データベースを圧縮することが目的だったようです。特開2005-234337「音声合成装置、音声合成方法、及び音声合成プログラム」が対応する特許出願と思われます。
【課題】 ハードウェア資源に大きな制約が課されている環境下においても、様々な種類の声質の合成音声を生成することができる音声合成装置等を提供する。
【解決手段】 1種類の音韻データを備えた音声合成装置100に声質変更部250及び声質データベース260を設ける。声質変更部250は、テキスト解析部220から供給される声質データ番号を検索キーとして声質データベース260を検索し、声質パラメータを取得する。声質変更部250は、取得した声質パラメータに基づいて、音韻データ取得部230によって取得される音韻データに示される各音韻の声質を変更する。
(特開2005-234337より)
◆音素を自然に変化させることについて
剣持 VOCALOID2では、これら素片同士の「伸ばし音区間」で要素を補完することにより、接続部で原理的に「音色の突然の変化」が発生しないようにしているんです。
(the VOCALOID CV01 初音ミク 37頁より)
音声素片の接続部での「音色の突然の変化」がおきないようにするには、スペクトル領域での調整をおこなっている、特開2003-255998「歌唱合成方法と装置及び記録媒体」が対応する特許出願と思われます。
【課題】 自然な 歌唱音声又は高品質の歌唱音声を合成する。
【解決手段】 音素又は音素連鎖からなる音声素片に対応する音声波形を周波数分析して周波数スペクトル(A)を検出する。周波数スペクトル(A)上でP1等の局所的ピークを検知し、これらのピークを含むR1等のスペクトル分布領域を指定する。各スペクトル分布領域毎に、振幅スペクトル分布を周波数軸に関して表わす振幅スペクトルデータと、位相スペクトル分布を周波数軸に関して表わす位相スペクトルデータとを生成する。各スペクトル分布領域の振幅スペクトル分布を入力音符ピッチに応じて周波数軸上で(B)の様に移動すべく振幅スペクトルデータを修正し、この修正に対応して位相スペクトルデータを修正する。所望の音色 に対応するスペクトル包絡に沿うようにスペクトル強度を調整する。修正された振幅及び位相スペクトルデータを時間領域の合成音声信号に変換する。
(特開2003-255998より)
◆所望のピッチに合わせて素片を変化させることについて
剣持 そして「こういったピッチで動く」っていうのだけ決まったら、それに合わせて他の全てのピッチが変動しますね。隣り合った素片同士は、波形自体もきれいにつながらなければならないので、・・・
(the VOCALOID CV01 初音ミク 37頁より)
ピッチに適合して音素の繋がりを調整する関する発明は、特開2002-202790「歌唱合成装置」 が対応する特許出願と思われます。発明者は、劔持秀紀さん、ザビエル・セラさんとジョルディ・ボナタさんです。
【課題】 高品質な歌声を合成する。
【解決手段】 スペクトルモデル合成(SMS)分析合成法において、音素または2つ以上の音素連鎖についてSMS分析を行いデータベース10を作成し、合成時に必要な音素または音素連鎖のSMSデータを接続し合成することで歌声を得る。前記データベース10には、同じ音素あるいは音素連鎖につき、異なるピッチ、ダイナミクス、テンポごとに別個の素片データを記憶する。調和成分調整手段22、非調和成分調整手段23で、読み出した素片データの調和成分および非調和成分を目的のピッチに合うように調整し、継続時間調整手段24で目的のテンポに合うように音素または音素連鎖の長さを調整し、素片レベル調整手段25でレベル調整した後、各素片を接続し、所望のピッチに対応した調和成分を生成して、非調和成分と合成する。
(特開2002-202790より)
◆音素ごとの繋がりについて
剣持 英語版の場合には、子音から子音につながる構造も、子音から無音につながる構造も、すべてサンプリングされて入っているということですね。
(the VOCALOID CV01 初音ミク 38頁より)
これは、特開2002-202790「歌唱合成装置」 の請求項4に記載された発明と思われます。
【請求項4】
前記音韻データベース中には、母音などの伸ばし音からなる音声素片データ、子音から母音あるいは母音から子音への音素連鎖からなる音声素片データ、子音か
ら子音
への音素連鎖からなる音声素片データおよび母音から母音への音素連鎖からなる音声素片データが記憶されていることを特徴とする請求項1~3のいずれかに記
載の歌唱合成装置。
(特開2002-202790 より)
◆子音のタイミング合わせについて
インタビュアー 「逆に言えば、Editor上で打ち込みをしているときは、Editor側で子音のタイミングを合わせてくれているのでしょうか。」
剣持 「そうです、子音を自動で前にシフトして合わせています。」
(the VOCALOID CV01 初音ミク 39頁より)
これは、子音の発生タイミングと音符の発生タイミングと同時にしたならば自然な歌唱にならないという課題を、子音の発生タイミングを少し前にシフトして合わせるという発明で解決したもので、特開2002-221978「ボーカルデータ生成装置、ボーカルデータ生成方法および歌唱音合成装置」が対応する特許出願とおもわれます。
【課題】
音節を構成する音素のうち、子音に対向する音素を音符の発生タイミングにあわせて発声することにより、伴奏に合わせたバーチャルシンガによる自然な歌唱を実現する。
【解決手段】
歌詞に対応した音節毎の発音タイミングデータを含むボーカルデータを予め記憶する。再生処理を始めると、音符「ド」に対応した音節「さ」を発声させるとき、子音「s」の発声動作を音符の発音タイミングよりも前に始め、母音「a」の発音タイミングを音符「ド」の発音タイミングに合わせる。これにより、伴奏に遅れることなく、バーチャルシンガによる自然な歌唱を可能にする。
(特開2002-2221978より)
◆合唱について
剣持 「あと、これはVOCALOIDシリーズに入るかどうかはわかりませんが、コーラスの合成技術も研究しています。」
(the VOCALOID CV01 初音ミク 39頁より)
合唱に関する特許出願は以下の2つと思われます。
特開2004-077608「合唱合成装置、合唱合成方法およびプログラム」
発明者は、劔持秀紀さんとジョルディ・ボナタさんです。
【課題】より自然な印象を聴取者に与えることが可能な合唱音を合成する。
【解決手段】この合唱合成装置100は、各々異なる音声に基づいて作成した3つの音声試料データ群110a,110b,110cを記憶する音声試料データベース110と、3つの歌唱生成器120,121,122とを有している。3パートからなる楽曲の合唱音信号を合成する際には、合唱制御部140の制御に下、歌唱生成器120,121,122は各々パートに歌詞情報やメロディ情報に応じて歌唱音信号を生成し、各合唱音信号を合成する。この生成の際に、各歌唱生成器120,121,122は異なる音声試料データ群110a,110b,110cに含まれる音声素片試料データを用いる。
(特開2004-077608より)
特開2006-251375「音声処理装置およびプログラム」
発明者は、劔持秀紀さん、吉岡靖雄さんとジョルディ・ボナタさんです。
【課題】 入力音声を簡易な構成によって多人数での合唱音や合奏音に変換する。
【解決手段】 ピッチ検出部12は、音声入力部61から供給される入力音声信号VinのピッチPinを検出する。エンベロープ検出部13は、入力音声信号Vinのスペクトルエンベロープを検出する。スペクトル取得手段30は、並列に発生された複数の音声を含む変換用音声の周波数スペクトルを取得する。ピッチ変換部21は、スペクトル取得手段30が取得した周波数スペクトルの各ピークの周波数をピッチPinに応じて変化させる。エンベロープ調整部22は、ピッチ変換部21による処理後の周波数スペクトルのスペクトルエンベロープをエンベロープ検出部13が検出したスペクトルエンベロープと略一致するように調整する。音声生成手段40は、エンベロープ調整部22による調整後の周波数スペクトルから出力音声信号Vnewを生成する。
(特開2006-251375より)
コーラスに関しては、論文でも発表されています。
Unisong: A Choir Singing Synthesizer
2006年10月に発表された論文で、著者は劔持秀紀さん、ジョルディボナダさん、Blaauw, Merlijnさん、Loscos, Alexさんの4名です。
Computer generated singing choir synthesis can be achieved by two means: clone transformation of a single voice or concatenation of real choir recording snippets. As of today, the synthesis quality for these two methods lack of naturalness and intelligibility respectively. Unisong is a new concatenation based choir singing synthesizer able to generate a high quality synthetic performance out of the score and lyrics specified by the user. This article describes all actions and techniques that take place in the process of virtual synthesis generation: choir recording scripts design and realization, human supervised automatic segmentation of the recordings, creation of samples database, and sample acquiring, transformation and concatenation. The synthesizer will be demonstrated with a song sample.
(Unisong A Choir Singing Synthesizer : Abstract より)
コンピュータは合唱するように歌声を発生することを以下2つの方法で達成することができます: ただ一つの声のクローンによる変化か、又は本当のコーラス録音の連結です。現在において、これらの2つの方法の統合品質はそれぞれ自然さと明瞭さに欠けています。
ユニソングは、スコアと歌詞によって高品質の合成音声の性能を得られるユーザ指定のコーラス歌声シンセサイザです。この記事は、仮想の統合世代の途中に行われるコーラス録音スクリプトの人間の監督された自動分割、サンプルデータベースの創造、サンプル取得、変化、および連結を実現する全ての動作とテクニックについて説明します。シンセサイザは歌のサンプルでデモンストレーションをするでしょう。
(参考訳)
'F-2 Voice Solo to Unison Choir Transformation'
2005年に発表された論文で、ジョルディ・ボナタさんが執筆しています。これはソロのボーカルをリアルタイムに多人数コーラスに変換する手法の論文のようです。
In this paper we present a transformation that pretends to convert a voice solo into a large, unison choir. The basic idea behind the presented algorithm is to morph the input voice solo (dry recording) with a recorded sustained vowel of a unison choir. The processing algorithm is based on the rigid phase-locked vocoder adapted to harmonic sounds. Pitch and timbre are taken from the voice solo, and the local spectrum comes out from the analysis of the unison choir sample.
(F-2 Voice Solo to Unison Choir Transformation)
この論文では、私たちはソロの歌声を多人数コーラスに変換するふりをする変換について述べます。 提示されたアルゴリズムの後ろの基本的な考え方は入力声のソロの歌声(乾いた録音)を多人数コーラスの記録された持続している母音に変形することです。 処理アルゴリズムは倍音に適合させられたフェーズロック・ボコーダに基づいています。 ソロの歌声からピッチと音色を取ります、そして、多人数コーラスのサンプルの分析からローカルスペクトルを得ます。
(参考訳)
最近のコメント