機械がしゃべる Voice Mixer

人口音声に魅せられて Voice Mixer

Voice Mixer開発者の林洋介氏が敬愛する心の師匠・佐近田展康氏。開発がなかなか思うようにいかなくなったある日、林氏は名古屋学芸大学の佐近田氏を訪れることに。合成音声に惹かれる者同士が向かい合い、その魅力とあまりに険しい道のりについて語り、今後の方針を確かめ合った。

佐近田展康

佐近田展康・さこんだのぶやす

音楽家/サウンド・メディア・アーティスト。1961年神戸生まれ。コンピュータとプログラミング環境Max/MSP/Jitterを駆使した音楽活動を展開、音楽作品、メディア・アート作品を発表。近年、歌声のリアルタイム合成の開発を行い、“佐近田展康機械歌謡ショウ”を各所で開催。赤松正行とのユニット「ノイマン」ではプログラミング環境Maxについての解説書を刊行、また三輪眞弘とのユニット「フォルマント兄弟」では、人工音声演奏によるパフォーマンスを行うなど幅広く活動。現在、名古屋学芸大学メディア造形学部映像メディア学科准教授。

佐近田展康機械歌謡ショウ・ダイジェスト映像(YouTube)

林洋介

林洋介・はやしようすけ

1982年滋賀県生まれ。国際情報科学芸術アカデミーDSPコース卒業。2009年修了見込み。音とグラフィックのインタラクティブアート作品を制作。作品に、「sonicode」(IAMAS 2008 ソフトピアジャパン)、「autonomic sound sphere(MAPPING SOUND INSTALLATION)(共作/山口情報芸術センター)。 

人口音声に惹かれる理由

 ── 佐近田先生はどのような経緯で、人工音声の研究を始めたのでしょうか。

佐近田 展康(以下、佐近田) ── 人工音声に取り組み始めたのは10年くらい前からです。大きな研究テーマが「テクノロジーと人間の関係」で、両者の境界に興味がありました。どこまでが機械でどこからが人間か、そのぎりぎりの境界を見てみたい。 「声」というのはとても複雑な音響現象です。他の音響、例えば、ピアノやバイオリンは多少再生スピードを変えても、ピアノでありバイオリンであり続けます。しかし人間の声は、再生ピッチを少し変えただけで、もう人間の声じゃなくなる。不自然な、ロボティックな声になってしまう。人間の耳が非常に敏感に「声」を感じ取っているということなんですが、それならば、人工的な音でどこまでリアルな声を作れるか。一方で、リアルになればなるほど気持ち悪さを感じる、いわゆる「不気味の谷」[★1]があります。その境界線を見極めたい。例えば、美空ひばりの声に人間は涙するでしょう。では機械の声で涙することは可能なのか、と。

★1 不気味の谷

ロボット工学の第一人者、森政弘が命名した概念。ロボットの外観や仕草が人間に近づくにつれ、好感が増すが、ある時点で突然、不気味さに変わる。さらに人間に近づくと、本物と見分けがつかないため不気味さを感じようがないのだが、その感情的反応の曲線がまるで谷に見えることから名付けられた。


 ── 林さんにとっての人工音声の魅力は?

林 洋介(以下、林) ── 僕の場合は、もともと音楽を作りたかったのですが、その中でボーカルから感情的なものを極力排除して、楽器のように扱いたいと思っていました。ギターで万人に共通のメッセージを伝えるのは難しいですが、言葉にすればとりあえずはある意味を持ったメッセージを乗せることができる。意味を持ったものに人は意識がいくと思う。これを気持ちが高ぶった状態で力を込めて歌うのではなく、無機質にしたいと思っていました。音楽を聴いていると、それが切り刻まれた音であったとしても「声」に注意がいきます。「声」が聞こえれば、それは意味を持っているはずだ、と反応してしまうのでしょうか。そういう「声」の面白さを感じていたので、それを自由に操りたいと思っていました。でも、ボーカリストに無機質に歌って、とか、あとで切り刻まれることを前提に歌ってくれ、というオーダーはなかなかしにくい。だから、人工合成を始めたというのがあります。何かしら理想化されたものを作ろうという気持ちがあるんでしょうね。

 ── ノイズ的なものじゃなくて、声にこだわっているのはどうしてなんでしょうか。

 ── そこは自分でも不思議なところで、先ほど述べたようにやっぱり声に惹かれるんです。そこに何かエモーショナルなものを感じとっているのかどうかはわからないですけど、ずたずたに切り刻まれたサンプルであれ、機械のものであれ、これは声だなと思うとそこに反応してしまう。

佐近田 ── どんなに小さな断片に刻まれても、変形加工されても、声には身体の痕跡が残るということだと思うんですね。ドラムにしてもギターにしても人間が弾いているのだから、身体の痕跡といえなくもないけど、実際に鳴っているのは楽器なわけです。コミュニケーションするとき、声というのは根源的なもので、いくら排除しようとしてもできない。人間は瞬間的に、声に何らかのコミュニケーションを発見しようとする生き物なのかもしれません。

ページのトップへ

フォルマント合成の奥深さ

 ── Voice Mixerの音声合成にフォルマント合成[★2]を選んだ理由を教えてください。

★2 フォルマント合成

音声合成技術のひとつ。録音された現実音を使用せずに、ノイズや倍音を多く含んだ波形の信号をフィルタに通すことにより音色を加工する。フィルタの周波数など限られたパラメータを操作することで多彩な音色を生成できることから、コンピュータの登場以降、人工音声の合成に早くから応用された歴史を持つ。


 ── 僕はサンプリングされた音楽も好きなんですけど、全てプログラミングで生成するということにこだわっていた時期があって、声もプログラムで作るためにはフォルマント合成しかないと思っていたんです。パラメータを保存しておいて、プログラムに送ればその場で音ができる。 始めてみると、思っていたより入り口は簡単でした。オシレータ(発振回路)に2つから3つのピークを作ると、確かに母音らしきものが聞こえる。これが結構驚きで、始めた頃が一番面白いものができた。でもそこから入り込むとものすごい奥が深かった。

佐近田 ── 林さんのソフトでは、母音はそうして作っていますが、子音は予め録音されたサンプリング音を頭につけたハイブリッド型です。子音を後で足すのではなく、先に音源に子音の要素を足してからフィルタにかけていますね。

 ── やってみたらそっちの方が音として馴染んだんです。ただしこれはかなり中間的な解決法で、すごく悪くもないけどすごく良くもない、というのが残念なのですが。 それから、結構ファイルを読み込まなければいけないのです。ある部分は「シ」のサンプルを、ここからは「サ」のサンプルを使うように領域を決めてしまっています。本当は、「サ」と「シ」の中間みたいな音がなるようにしたかったんですが。

佐近田 ── 本来なら、サンプリングされた子音は、フォルマント合成後にくっつけるべきかもしれませんね。でもそうすると子音と母音が切って貼ったみたいになって、言葉として聞こえない。だからフィルタの手前でつけてるんだよね。 声の話でいうと、例えば「つぁー」という言葉を発生させたい時、「つ」という音と「あー」という音を単につなげば聞こえるだろうと考えがちですが、やってみると絶対に聞こえない。それは口の形が「つ」の形の時から「あー」が始まるからです。その中間的な母音を人間は瞬間的にききとって「つ」から「あ」へと連続的に音としてとらえる。だから、言葉の合成というのは、人間の知覚へ与える巨大な効果をどうシミュレートするか、という問題になります。これはもう大変難しいことです。

 ── 完成までの道は、まだ険しいですか?

 ── これだけのものを制御しようとすればパラメータも増えてくるので、まず操作が難しくなります。それからプログラムが速く動くことも重要です。ちょっと子音を鳴らせばちゃんと聞こえるだろうという最初の考えは甘かった。

←試行錯誤中のVoice Mixerを披露する林氏。「どうしても声にならない」との悩みに佐近田氏がアドバイスを送る


ページのトップへ

人口音声の深淵なる世界

 ── プログラミングだけで人間の声を作ろうというのは、人間に対する挑戦ですか?

佐近田 ── 挑戦という意識ではありません。今はどんどんテクノロジーが身体の中に入ってきているわけですよね。それで、楽観論だとテクノロジーを使って人間は幸せになるというし、悲観論にすると人間性がどんどん削られていくという話になる。機械や人間が勝った負けたという話じゃなくて、ここからは機械の世界、ここからは人間の・・・少なくとも機械じゃない世界、というギリギリのところの見極めをしたいと思っている。 やってみるとすごい気持ち悪いものが出てくる。それは大げさですけど、人類が初めて経験するような類の気持ち悪さです。人間と非人間、そのぎりぎりの狭間で揺らぐというのは、これまでは小説のテーマだったんだけど、それと同じことを音楽としてやっているのかも知れない。

 ── リアルになっていくのではなくて、不気味になっていくんですね。

佐近田 ── そう。だからロボティックな声の方が「これは機械だ」と安心できるんですよ。逆に、人間かどうか見分けがつかないと不気味さを感じる。 人工音声の実用的な技術としては、ずっと以前からTTS[★3]があります。以来、機械がテキストを自然言語のように読み上げる技術であれば、マックにもウィンドウズにも普通に搭載されています。TTSは、機械が喋るという考え方を最初に示して、しかも極めてリアリティのある声をフォルマント合成やサンプリング技術を使って実際に作ってしまったわけです。 じゃあなぜ僕がまたそれを1から始めたのかというと、予め決められたテキストを喋らせるんじゃなくて、リアルタイムに歌わせて、そこに感情を込めたい。初音ミク[★4]のようなVOCALOIDにしても、音符情報と言葉の情報を与えてそれらしく歌うというのは、TTSの延長です。でも僕は、そうじゃなくて今この瞬間に、「私は」と歌いたくなれば「わたしは」とエモーショナルに歌う、そういうことがしたかった。

★3 TTS/Text To Speech

音声合成エンジンを使って、入力したテキスト(文章)を読み上げるソフトウェア。スピーチ・シンセサイザーとも呼ばれる。1984にマッキントッシュに搭載されたMacin Talkは一躍話題となった。現在では、Windows XPやマッキントッシュOSに英語版TTSが標準搭載されている。


★4 初音ミク

パソコン上で音声合成することにより、楽曲のヴォーカルパートを作り出すソフトウエア音源「VOCALOID(ボーカロイド)」のひとつ。「キャラクター・ボーカル・シリーズ」として2007年に発売された。アイドル的なキャラクター設定や萌えボイスが受け、これを使った自作の作品をネット上で配信するのが流行り、大ヒットした。


 ── 林さんにとっての人工音声研究のゴールは?

 ── まずは「声」だとわかるような質感の音を作って、そこから選んで使えるようになることです。つまり「あ」と「え」の中間もあって、言葉以前の声が聞こえるというのが目標ですね。

佐近田 ── そう。キーボードを押して「あ」「え」と明瞭に喋らせるのもいいんだけど、「Voice Mixer」の強み、というのは、「あ」と「え」の中間音とか、何とも聞こえないような音、声に聞こえるんだけど日本語になっていない連続的な音の変化を出せることです。そのことを強調してほしいですね。

 ── ちゃんと聞こえるという所と聞き取りづらい所があって、うまくバランスとろうとして今の状態になっています・・・やろうと思えばわけのわからない音声を出すことも可能なので、そっちにフォーカスを絞るというのも面白いかもしれませんね。

ページのトップへ

2006 (C) NATIONAL MUSEUM OF EMERGING SCIENCE AND INNOVATION