夢ナビWebセレクション

広島市立大学の教員によるミニ講義

関心ワード
  • 音声認識、
  • コンピュータ、
  • 統計、
  • 機械、
  • 学習・学び、
  • 言葉、
  • 周波数、
  • スマートフォン、
  • 音響、
  • 会話

音声を認識するコンピュータ~でも、新しい言葉は苦手~

統計的な手法で音声を認識するコンピュータ

 スマートフォンでの音声検索などの技術が発達してきましたが、コンピュータはどのようにして音声を認識するのでしょうか。現在主流なのは、統計的な手法です。五十音のような、意味を形成する音の最小単位である音素の音響モデルをコンピュータに機械学習させ、音の特徴を理解させます。一方で、動詞や名詞、助詞などの単語と単語の並びのルールを一緒に学習させます。例えば、「私」という言葉の後には、「は」や「の」、「が」などの格助詞が続きやすい傾向があります。このような並びのルールを統計的な手法で学習させることで、音声認識をさせています。

音声はコンピュータでどう表現されるか

 ただ、人間の声は性別、年齢、地域によって違います。また、ハキハキしゃべる人もいれば、もぞもぞしゃべる人もいます。同じ人でも、文章を読み上げる声と会話するときの声は違います。そこで、数千人の音声データを複数のしゃべり方で採集し、音響モデルに幅を持たせています。コンピュータが音声を理解するときは、まず周波数成分に分解します。周波数成分とは、音質に対する指標です。この指標を2次元で表示すると、例えば「あ」の音が占めるエリアと「い」の音が占めるエリアは異なります。それぞれの平均値と分散(広がり)を決めれば、この音は「あ」だと認識できます。音声モデルに幅を持たせると、それだけ誤る確率も増えますが、語順のルールを一緒に考えることで誤りを少なくしています。

新しい単語をいかに収集するかが今後の課題

 この方法によってかなりの精度で音声を認識することができるようになりました。しかし、コンピュータは新しい単語が苦手です。毎日のニュースには、固有名詞など新しい言葉が出現します。また、収集されていない言葉も数多くあります。統計的な手法では、覚えていない言葉が出てくると認識が難しくなります。そこで、新しい言葉をどのように収集していくかが今後の課題なのです。

再生スピードを変更できます。

アイコン

講義を視聴する(1分)

アイコン

講義を視聴する(1分 その2)

アイコン

講義を視聴する(1分 その3)

アイコン

講義を視聴する(30分)

この学問が向いているかも 情報科学


情報科学部 知能工学科 教授
竹澤 寿幸

先生の他の講義を見る 先生の著書
メッセージ

 私は「コンピュータが人間の言語を理解すること」に興味があって、音声認識や機械翻訳の研究をしてきました。最近は、スマートフォンでの音声検索やWebページの自動翻訳も可能になっています。しかし、音声認識も機械翻訳も毎日新しい事件が起こるたびに現れる地名や人名をはじめとする新しい単語をどう扱うかなど、課題がまだまだたくさんあります。ぜひ、国語、英語にも興味を持って、さらに数学のような論理的なものの考え方も身につけて、情報科学に興味を持ってほしいと思っています。

TOPへもどる

夢ナビロゴ

夢ナビ編集部copyright(c) 2008- Frompage Co.,Ltd. All Rights Reserved.