夢ナビ夢ナビは、さまざまな言葉をデータベースから検索・閲覧し、将来の進路を決める“きっかけ”を提供します。

講義No.08190

なぜ人間は合成音声を聞き分けられるのだろう?

同じ音でも微妙に違う!

 さまざまな場面で、機械の合成音声が使われることが増えましたが、明らかに合成とわかる音声が大半です。実は自然に聞こえる合成音声を作るのはとても難しいのです。音声は五十音の単純な組み合わせではありません。例えば、実際に発音してみてください。「アイウ」の中の「イ」と、「アイエ」の中の「イ」は厳密には違う音です。「アイウ」の「イ」には「ア」の余韻と「ウ」を発声する準備が表れています。人間は無意識にその違いを聞き分けるため、音声を合成するには「イ」の音を何パターンも用意する必要があります。また分野が異なれば使われる言葉や、音やイントネーションも変わるので、ほかの用途で集めた音声を流用することは困難です。

合成音声を作るための多大な労力

 株式市況や気象情報などの合成音声は比較的自然に聞こえますが、それは分野が限定されているからです。ただし、例えば交通情報の合成音声を作ろうとしたらデータ量は膨大で、過去の交通情報のテキスト(文字)情報を何千万も集め、それを分類するシステムを構築し、使う音声の要素を整理する必要があります。そうやって抽出された最小限のテキストを読み上げ収録することで、ようやく基礎的な音声が集められるのです。

ロボットが人間のように話せる日は来る?

 現在のロボットの言葉は合成音声であることが、誰にでもわかります。対話型ロボットに自然な発音やイントネーションで任意の会話をさせることはとても難しいのです。ただし初音ミクのようなボーカロイドは歌なので成立しています。歌は一音が長く、前後の音の影響を受けにくいからです。また背後に音楽が流れ、発声の不自然さが気になりにくいこともあります。一方、対話型ロボットはビジュアルがいかにもロボット然としているため、合成音声を受け入れやすいのです。しかし人間のようなヒューマノイドが開発されつつある中では、人工知能だけでなく発声の仕組みも考えていく必要があるでしょう。

アイコン

講義を視聴する(1分)

アイコン

講義を視聴する(1分 その2)

アイコン

講義を視聴する(1分 その3)

アイコン

講義を視聴する(30分)

この学問が向いているかも 音声情報学

成蹊大学
理工学部 情報科学科 教授
世木 寛之 先生

メッセージ

 一次元の情報しかない音声の研究は、画像と違って見た目の派手さはありません。しかしシンプルだからこそ奥深く、研究しがいのある分野だと言えます。これは音声や画像に限らず、すべての学問に言えることですが、大学では中身を本質的に理解することを心掛けてください。
 目先の結果だけを求めて小手先のテクニックに走ると、いずれ行き詰まります。わからないことがあったら一度立ち止まって、何が問題なのかを整理してください。遠回りに見えても、それが大きな目標を達成するための近道なのです。

先生の学問へのきっかけ

 大学在学中に、人間の脳の神経回路の仕組みを模したモデル「ニューラルネットワーク」のブームが起こり、在籍していた物理学ではなく工学系でニューラルネットワークを活用したいと考えるようになりました。興味があったのは画像認識でしたが、就職後に任されたのは画像ではなく、音声認識でした。
 しかし音声に関わってみると、画像にはない面白さを感じましたし、もともと音楽好きでしたから、嗜好的にも合っていた気がします。今後の研究では企業にいた経験も生かして、音声に関するさまざまな問題を解決していきたいと考えています。

大学アイコン
世木 寛之 先生がいらっしゃる
成蹊大学に関心を持ったら

 成蹊大学は、経済学部※・経営学部※・法学部・文学部・理工学部からなる総合大学です。文系・理系のすべての学生が4年間、緑豊かな吉祥寺のキャンパスで過ごすので、所属学部以外の友人との交流や学年を越えたネットワークづくりも可能です。また、先生との距離が近く学生一人ひとりの個性を尊重する少人数教育やキャリア教育が充実しています。さらに、2020年度より、各自が自分の興味関心やニーズに沿った学習を進められるよう副専攻制度を設けます。詳細は成蹊大学ホームページをご確認ください。 ※2020年4月設置構想中

TOPへもどる