MIS.W 公式ブログ

早稲田大学公認、情報系創作サークル「早稲田大学経営情報学会」(MIS.W)の公式ブログです!

マスター、はやくきれいに歌わせて!【アドベントカレンダー2015冬5日目】

アドベントカレンダー5日目を担当致します、50代MIDI研究会所属のQでございます。マッフラ映える初冬の候、いかがお過ごしでしょうか。今年も色々ありました、真摯に元気にひたむきに、曲作りました、女装もしました、漢ゎ黙ってゅっきゅんきゅん。

さて、今回私がこちらに書かせていただきますのは「VOCALOIDボーカロイド)」にまつわるお話です。仰々しくマスターなどと謳いながら私とて初心者、DTMとの関わりも今年から、雑なり拙な楽曲を世に晒して参りました、調声にあっては拙の拙、諸先達を羞恥に苦笑せしめるカラ声、表せばそれは世の常マイナス、述べぬが良断と望まれます。調声の件は初心の方に、学祭を終えてチョットMIDIをも齧ってみたいとお思いの方に、勢いあまって手許に呼んで黙りこくったミクちゃんリンちゃんレンくんを微笑ませたい50代諸氏に、ネタをお教え致すとしましょう。 メインでお語りしたく望むは「人間の発話らしく聴こえるVOCALOIDの発話形態と日本語のVOCALOIDへの適性」といったもの、いわば「ボカ論考」。なぜボーカロイドの発祥が日本であったか、別の国じゃあ生まれ得なかったか、といったものを。

・とりあえず歌わせるかえ VOCALOIDにおいて、歌う歌詞を編集し、それを聴くには、専用のエディターが必要なのでございます。初代ミクなどはエディターと音声のファイルが同梱されていましたが、のちに別売りとなりました。これにより可能になったこととして、1回エディターを買ってしまえば、あとはキャラクターの音声を買えば済むだけで、1つのエディターにて複数のキャラを操作できるようになったことがあげられます。同梱で販売されていた時には、そのエディターでは1キャラしか動かせず、1キャラにつき1エディターがあてがわれるという不経済がありました。現在はキャラのバラエティも増え、あの小林幸子までもがボカロのモチーフになっています。さらには特定のDAWにのみ対応するエディターも出る有様。Cubaseなんですけど。

アクティベーションせぇや エディターとキャラのファイルをインストールするとき、「アクティベーション」といったことをおこないます。インストール時に表示される「アクティベーションコードの入力」という画面に対して、購入時のパッケージに同梱されているシリアルコードを入力するだけなんですけど。果たしてこれは何をしているのか、と言いますと、「そのVOCALOIDの生産を扱う企業に、このナンバーのこの子を使いますよ、ということを認知してもらう」ということをしています。アクティベーションコードを入力しますと、そのVOCALOIDを扱う企業に通知が行きます。その後承認を受け、インストール先のパソコン以外で使用できなくする、といった制約を受けることになり、晴れてキャラを歌わせることができるようになります。 なぜこんなことをするのか、と言いますと、やはり利益の確保があるのではないでしょうか。「1つのソフトから得られるキャラが別のパソコンでも動作する」となれば、例えば僕が1つ買って、別の人に譲渡し、その人が自分のパソコンにインストールした後、また別の人に譲渡して、を繰り返し、1本のソフトで無限に無料でボカロPが生まれてしまい、企業は作り損です。「1つのパソコンに1キャラ」にて、利得を守っているのだと思われます。

・何しゃべっとんじゃ エディターを起動しますと、ピアノロールが画面に現れます。そこにノート(音符の役割を持つポチ)を打ち込み、ノートをダブルクリックして歌詞を入力します。しかし、歌わせたいメロディー、歌わせたい歌詞を入力し終わり、いざ再生してみると、所々に発音が聴き取れない部分があると思います。「いつ〜か〜ら〜か〜」と入力したのに「いう〜あ〜ら〜か〜」と聴こえるなど。このままWAVファイルに書き出して楽器に合わせては、せっかくの歌詞が伝わりません。

・どうしよ これを解消する手立てとして「ベロシティの調整」があります。エディター左端の「ベロシティ(VEL)」をクリックしてみますと、ピアノロールの下が切り替わります。このベロシティを司る棒を下げていきますと、「その1つ前の音が歌われる時間が短くなる」といった処理がおこなわれます。それをすれば、はっきり聴こえなかった音もある程度明瞭になると思われます。そして、具体的に下げるべき音というのは「パ行音」と「カ行音」と「タ行音」であると考えられます。厳密には「パ行音」「カ行音」「タ行音」「チャ行音」「シャ行音」「サ行音」「ツァ行音」「ファ行音」「ン」のいずれか2つが隣り合ってしまった場合かもしれませんが。

・なんでよ 上記の音はいずれも「無声音」です。すなわち人間でいえば声帯振動を用いずにおこなう発声であり、例えば「か(k a)」は、「k」を「吐息」と「口の形」と「喉の動き」のみで、声帯を震わせずに出し、それに有声音、すなわち声帯振動を伴う音である母音の「a」をつなげて出した音なのです(やってみてネ)。ボカロにとってはこう翻訳されるのでしょう、「ノートの最初の子音を息づかいのみで発声しなければならない」と。これが電子の歌姫たちにとっては大変な困難となるのです。だから、ちょっとでも聴き取りやすくなるように、ゲージをいじってあげることが肝要なのです。

・もっと教えやがれ さらに望ましい(と私めが勝手に思っている)処理として「ピッチベンド」と「ポルタメント」というものがあります。どういうものかと言いますと、「音程の高低を厳密に決められる」処理です。「や、ピアノロールに打ち込めば、たとえばドの位置に音符を置いたら、ちゃんとドの音程で発声するじゃン」とお思いでしょうが、そういう意味ではないんです。「音」と言いますのは、ピアノの鍵盤の12音しか種類がないというわけではありません。 ピアノの12音というのは、「きれいに聴こえるための理論を整備するのに都合のよい音の、周波数別の区切り方」であります。ドとドのシャープの間の高さの音は存在しない、そんなはずはありません(一区切りを53音にする分け方もあるぐらいです)。ピッチベンドの処理は、そのいわば「ドとドのシャープの間の音」や「ソの音より1/4だけ高い音」でキャラが発声できるようにする処理であり、この処理でもってより人間らしい発声に近づくのではないかと思っております。ポルタメントは「しゃくり」のことであり、音の末尾の音程を次の音の音程に近づけながら歌わせるようにする処理です。

・ぅちらの声ゎ。。。 人間が単語を発するとき、その1音1音が必ずしも「ピアノの12音」の音階に当てはまっているというわけではありません。さらに歌を歌うとき、たとえば「メールトーとーけーてーしーまーいーそうー」と歌うとき、「と」と「け」との間は、音程的に随分遠いような感じがします。人間の発声においては「と」を言い終わる間際に、すでに「け」の音程にシフトすべく語尾の音程を少しずつ上げているんですね。人間が無意識におこなっているであろうこの処理を、エディターを使ってボカロに付与させてやろう、というわけです(もっとも最近のボカロはこれだいぶ自動で設定してくれるんですけど)。「ポルタメント(POR)」をクリックし、ノートを選択して処理を決めていきます。選択したノートの次のノートの音程の方が高ければオートメーション(変化のしかたを線画のように描写できるもの)の処理で右肩上がりに描き、低ければ右肩下がりに描く、といった処理をします。そうすれば、だいぶ人間の発声に近くなると思われます。

・オラッ読め!!お前が読者になるんだよ!! さて、ここまで「いかにして人間らしく話させることができるか」の事始めのようなものをつらつらとお書きいたしましたが、これが語れるのはVOCALOIDの発祥が他でもない“日本”であるからだと、私は考えております。5000字超えそうな雰囲気出てきた。 この論拠として、日本語は「ある単語を発話するのに用いられる母音の数や形態が他言語と著しく違う」という特徴を持つ、ということがあげられます。たとえば英単語「strike」。発音記号は「straik」となります。日本語では「ストライク」。発音記号は「sutoraiku」となります。日本語に輸入された段階で1音節だった単語が5音節になってしまっています。ここで重要なのは、「VOCALOIDが歌う際に、エディター上ではstrikeには音符を1個しかつけられないのに対して、ストライクには5個の音符をつけられる」ということです。彼ら英米人にとって、「s」や「t」には音階をあてがって発音するという概念は存在しません。ところが日本人は「s」を「す」、「t」を「とぅ」と、若干の母音をつけて発音する習慣がついています。歌を歌うにあたって、strikeは1つの音階でしか歌えませんが、ストライクは5回音階を変化させて歌うことができます。先ほどの話のように、VOCALOIDは無声音が苦手です。子音のみで無声音が続いては、1音として発音させるのは非常に難しいです。たとえばstrikeをドの音で発音させたとして、音符があてがわれて聴こえるのは母音のある「ri」の部分のみで、発音は「rai」です。そのとき「st」「k」の発声はもっぱら息づかいに頼らざるを得ませんが、歌姫たちがこれをし難いのは前述の通りです。しかし、ストライクはstrikeの4子音全部に母音がつき、1音1音編集が可能で音程をあてがうことができます。無声音の発声は難義しますが、各々の子音の箇所に個別の対応が可能になります。このように、1つの子音に必ず母音が付随する言語形態こそが、「従来のDAWのような編集方法での歌詞入力」を可能にしたのだと思われます。そしてこれは、日本語の外来語の輸入のあり方が寄与しているのだと考えられます。VOCALOIDは日本でしか生まれえなかった、そう言い切ってもよいのではないでしょうか。

・漢ゎ黙ってゅっきゅんきゅん ここまで読んでいただき誠にありがとうございます。私なりの結論づけは一応のところ済ませはしましたが、「VOCALOIDが日本で生まれた理由」、というか「生まれるためのファクター」は枚挙に暇がありません。音楽文化史に飛べばYMOテクノポップの存在、ポストモダニズムに飛べばアメリカニズムに対する日本のスノビズムから生じたオタク系文化とキャラクターのデータベース的消費のしかたなど、専門性を帯びますし俺もよくわからんし本書けそうガハハwあくまで「発音」の側面を、ボカロの操作方法を交えながら拙くお話しした、そう受け取っていただければ幸いです。