夢ナビ夢ナビは、さまざまな言葉をデータベースから検索・閲覧し、将来の進路を決める“きっかけ”を提供します。

TOPへ戻る

講義No.09392

聖徳太子のように10人の話を聞き分けるには?

音声認識は雑音の中では難しい

 AI技術の進歩により、スマホでも実用レベルの音声認識が可能になりました。しかし、周囲にさまざまな音がある環境、例えば、にぎわうファストフード店では、音声認識はとても難しくなります。店員さんの声、ほかのお客さん同士の声、BGMなどが混じりあって聞こえてくるからです。一方人間は、こうした雑音が多い環境でも、特定の音声を聞き分ることができ、カクテルパーティー効果と呼ばれています。

聞きたい音を聞き分ける音の分離技術

 雑音の中で特定の音だけを聞きたいときに用いられる機器としては、指向性マイクロホンがあります。あなたもテレビの収録現場などで、長く大きなマイクロホンが使われているのを見たことがあるでしょう。こうした指向性マイクロホンは、雑音の中でも特定方向の音を収録することができますが、逆にいえば、あらかじめどの方向に聞きたい音の発生源があるかを知らなければならず、さらにその方向にマイクロホンを向ける必要があります。これに対し、音の発生位置を事前に知らなくても、複数のマイクロホンを並べ、録音された混ざった音を処理してそれぞれの音を分離する、いわば音を聞き分ける技術を音源分離といいます。人間の耳は2つですが、マイクロホンは2つに限らず、もっとたくさん使うことができます。人間とは異なる仕組みですが、最新の音源分離技術を使えば、聖徳太子のように、10人が同時に話をしてもそれぞれの人の話を聞き分けることが可能になりつつあります。

音源分離の広がる応用

 音源分離は音声認識に限らず、幅広い応用が期待されています。例えば補聴器が、さまざまな音の中から聞きたい声だけを増幅してくれたら、聴こえは大幅に改善するでしょう。音楽演奏を個々の楽器パートや歌声に分離することができたら、耳コピしたり、弾き間違いを修正したりすることが、より簡単にできるようになるでしょう。未来のスマートスピーカーは、複数の人が同時に話しかけても、ちゃんと聞き分けて対応してくれるようになるかもしれません。


この学問が向いているかも 音響工学、情報科学

東京都立大学(旧・首都大学東京)
システムデザイン学部 情報科学科 教授
小野 順貴 先生

先生の他の講義を見る
メッセージ

 人間にとって「音」はコミュニケーションの道具であると同時に、外界を認識する重要なメディアでもあります。人間は音声で意志を伝達しあい、音楽を楽しみ、音で周囲のさまざまな状況を知覚しています。人間のように高度な音情報処理の実現のため、これまで多数の研究が進められ、近年のAI技術により音声認識はついに実用レベルに達しました。次のステージでは音楽、そしてあらゆる音の認識へと移っていくでしょう。PCが音楽演奏を手伝ってくれたり、スマホが周囲の音を聞き、危険があれば教えてくれたりする日も近いかもしれません。

先生の学問へのきっかけ

 小学生の頃から音楽とコンピュータが好きでした。当時もっていたマイコンには音源や音声合成機能が備わっており、これを使って曲や歌を演奏させて楽しんでいました。大学に入ってからは中南米の民族音楽サークルに入り、チャランゴという楽器を演奏していました。民族音楽の楽譜は通常市販されておらず、演奏したい曲があれば、自分で何度も聞いて楽譜にする(いわゆる耳コピ)必要がありました。そこで、それぞれの楽器音をうまく分離できたら採譜しやすいのにと考え始めたことが、音の研究をやりたいと思うきっかけになりました。

研究室
大学アイコン
小野 順貴 先生がいらっしゃる
東京都立大学(旧・首都大学東京)に関心を持ったら

 東京都立大学は「大都市における人間社会の理想像の追求」を使命とし、東京都が設置している公立の総合大学です。人文社会学部、法学部、経済経営学部、理学部、都市環境学部、システムデザイン学部、健康福祉学部の7学部23学科で広範な学問領域を網羅。学部、領域を越え自由に学ぶカリキュラムやインターンシップなどの特色あるプログラムや、各分野の高度な専門教育が、充実した環境の中で受けられます。

TOPへもどる