サブメニューを開く
サブメニューを閉じる

立命館大学

  • TOP
  • interview
情報理工学研究科博士課程後期課程3回生/永瀬亮太郎さん

情報理工学研究科博士課程後期課程3回生永瀬亮太郎さん

声に込められた気持ちを自動的に読み取る

 ~音声が伝える感情を解析する情報処理技術~

 聞こえてくるのは同じ言葉、なのに相手の話し方により伝わる意味はまったく違ってくる。おそらく誰もが一度は経験している現象だろう。同じ言葉が異なる印象を与えてしまう理由、それは人の声に込められた話し手の感情にある。
 音声には言語情報と音響情報が含まれている。二つの情報を合わせて、音声が伝える感情を自動で推定する技術が音声感情認識技術である。永瀬亮太郎さん(情報理工学研究科 博士課程後期課程3回生)は、文の意味や音素の違いなどの情報を積極的に活用して感情を認識する研究に取り組み、先行研究を超える成果を相次いで発表している。

2024.09.03

  • 切なさを伝える声を、どうやって数値化するか
  • 声を周波数解析し、言語情報と突き合わせる
  • これまでなかった視点で問題を捉え直す
  • ロボットが感情を込めて人と話せる未来

切なさを伝える声を、どうやって数値化するか

 音声から話し手の感情を認識する。これは音声感情認識と呼ばれ、日常会話の中で誰もが無意識のうちに行っていることだ。たとえば強い断定口調で「バカッ!」と吐き捨てられるように言われたときと、少し甘えるような口調で「(んもぉ~)ばかぁ~」とささやかれた場合、発せられている言葉は同じ「BAKA」でも、受け取る感情はまったく違う。逆に考えれば、言葉の意味だけでなく話し方にも注意していれば、相手の気持ちをより正確に理解できる。このような声も使った感情のやり取りについて、永瀬さんは教職課程の講義を受け始めたときから興味を持っていたと振り返る。


「学校カウンセリングや教育心理学の授業を聞いていると、特にカウンセリングでは傾聴が大切だと強調されます。相手は今どんな気持ちなのかを想像したり、話を受け入れていると相手に分かってもらうように相槌を打ったりしますが、話し方によって感じ取れる感情が異なってくると実感していました」


 合唱団に所属する永瀬さんにとっては、合唱指導も感情表現を考えるきっかけになっているという。


「あるとき指導で、“場所は残業帰りの駅のホームを思い浮かべてください。そこで仕事帰りの人が「はぁ~、明日もまた仕事か」とちょっとした絶望感に浸っているような気持ちを込めて歌ってください”と言われました。言わんとするニュアンスは、なんとなくわかるような気がするのです。けれども、もっと的確な指示は出せないものかとじれったくも思う。仮に何らかの指標を用いて指示を数値化できれば、よりわかりやすくなるのではないか。そんな思いを突き詰めているうちに、声による感情表現を何とかして数値化できないかと考えるようになったのです」


 声、すなわち音は音波であるから、周波数解析によって数値化できる。であるなら深層学習などの手法を使えば、声と意味と組み合わせて分析可能となる。そんな授業を学部2年生のときに今の指導教員、音声言語研究室の山下先生から受けた永瀬さんは、自分の進むべき道を見つけた。

声を周波数解析し、言語情報と突き合わせる

 人の話し声は、声の高さや響き方、声質などの音響情報に分解できる。一方では話された内容が、言語情報として聞き手に伝わる。音声感情認識では、音響情報と言語(意味)情報を組み合わせて、話者の感情状態を感情認識器(コンピュータ)に推定させる。言葉に表された意味と発話によって伝わる音声を組み合わせて、相手の話を理解する。これは通常の対話でもコミュニケーションを円滑に進めるために、人が無意識のうちに行っているプロセスだ。このプロセスを何らかの形でコンピュータ解析できるようになれば、その成果は人と対話するロボットなどへの応用も考えられるだろう。


「音声には、言語情報とパラ言語情報、非言語情報の三つの情報が含まれています。言語情報は文字通り、話された内容を示す情報、パラ言語情報は発話のニュアンスなどを示す情報、非言語情報は性別や年齢などを示す情報です。これらの情報の多くは音響的な特徴から分析できます。代表的な特徴としては、フーリエ変換で音声を周波数解析することで得られるスペクトログラムなどが挙げられます。このような音響情報と言語情報を組み合わせて感情認識器に認識させるのです」


 2021年から本格的な研究をスタートした永瀬さんが、最初に取り組んだテーマは「音響・言語情報を併用した音声感情認識」である。音響的な情報だけでは、誤って認識されやすい発話をいかに正確に感情認識器に理解させるか。たとえば感情を「喜び」「悲しみ」「怒り」「平静」の四つに分類する場合、音響的な情報だけでは喜びの感情と怒りの感情が誤認識されやすいという。


「なぜなら音響だけに注目すると、喜びと怒りはどちらも発話時の声の強さなどの変化が似ているからです。とはいえ、それぞれの発話で何が話されているのか、つまり言語情報も組み合わせて判断させれば正しく認識できる可能性が高まります。そこで音声から得られる音響情報と言語情報を結合して機械学習を行いました」


 人が話を聞いて判断するのであれば、まず間違ったりはしない発話を感情認識器に正しく推定させる。そのためにこれまで網羅的には検証されてこなかった音響情報と言語情報の融合処理を同じ条件のもとで比較し、最も良い組み合わせを明らかにした。この点に永瀬さんのオリジナリティが発揮されていて、研究成果は日本音響学会誌に採録された。


音声感情認識 デモンストレーション

これまでなかった視点で問題を捉え直す

 続いて取り組んだテーマが「感情ラベル系列の推定による音声感情認識」、すなわち一連の発話の中で微妙に変化している細かな感情表現の認識である。たとえば「今回だけは大目に見るけれど、次は見過ごさないからな」という発話がある。従来の音声感情認識では、一つの発話に対しては付けられる感情ラベルも一つが原則とされる。したがって先の発話を「喜び」「悲しみ」「怒り」「平静」の四つのどれかに当てはめるなら「怒り」となる。


「けれども細かくみれば、感情の長さや種類は発話中に細かく変化しているはずです。例の発話なら『今回だけは大目に見るけれど』と『次は見過ごさないからな』に分ければ感情レベルは微妙に変化しています。その変化をどうやって感情認識器にきめ細かく認識させるか。ポイントは発話に含まれる音響的差異にあると考えました」


 人の発する声は、まず発音する際の声帯の振動により有声音と無声音に分けられる。「ア、イ、ウ、エ、オ」の母音は基本的に声帯の振動を伴う有声音である。一方で子音は有声音と無声音に分けられる。ただし音声感情認識の従来研究が注目していたのは、あくまで有声音だけであり、その際にも母音と子音の違いは意識されていなかった。


「同じ有声音とはいえ、母音と有声子音では音響的なパターンが違うのではないかと考えました。さらに無声子音にまで注目すれば、一つの発話についても、母音、有声子音、無声子音と属性の区切りを増やしてより精緻に分析できます。この属性区分に基づいて感情レベル系列を改めて定義し直してみたのです。たとえば怒られるときに、“コラッ”て言われるのと、“ゴラッ”と言われるのでは、後者の“ゴラッ”の方が明らかに怖い。印象の違いが起こる理由を突き詰めれば、コが無声子音なのに対して、ゴは有声子音だからだと思います。このような違いを踏まえて感情ラベルを考慮した結果、認識率を改善できました」


 研究成果は、音声言語処理分野では世界最大規模の会議『INTERSPEECH』に採録され、立命館大学大学院情報理工学研究科優秀研究賞やIEEE SPS Tokyo joint chapter student awardも受賞している。次に永瀬さんが取り組んだテーマが「音声が伝える感情の説明文を書き起こす音声感情認識」だ。これは文字通り、伝わる感情を文章化する革新的な手法だ。


「たとえば、何かの試合に勝って“よっしゃ、やった~”と大喜びしている発話があったとします。これを従来の感情認識器で解析すると、4つの感情カテゴリで分類すれば「喜び」であり、『覚醒↔睡眠・不快↔快』などの次元感情を認識すると「快」の予測値が大きくなります。けれども、この発話者の感情をより正確に判断するなら、単に喜んだり、快く感じているだけではなく、すごく興奮して喜んでいるわけです。その発話者本来の感情をより正確に認識するためにはどうすればよいか。考えた結果、発話者の感情をそのまま説明文として書き起こす手法を思いつきました」


 具体的には“よっしゃ、やった~”という発話について「勝利に興奮し満足感を感じている」と感情の説明文を書き起こす。そのために既存の感情音声データに感情の説明文を付け加えて深層学習を行い、音声から感情キャプションを予測する感情認識器を新たに開発した。これは感情を予測するやり方そのものを、従来のような評価形式ではなく、文章化して認識する形式へと一変させるものだ。この成果は2024年3月の日本音響学会研究発表会で発表されている。


INTERSPEECH2023 口頭発表

ロボットが感情を込めて人と話せる未来

 従来の音声感情認識で考慮されていなかった、母音と有声子音、無声子音の差異に着目する視点、あるいは感情を文章化して表現する手法など、永瀬さんの研究は斬新な発想に基づいて構築されている。なぜ、そのような視点を持てるのか。その秘密は、誤り分析を大切にする姿勢にありそうだ。


「音声感情認識を行っていると、基本的に正解率を重視するようになりがちです。けれども、研究を進めるうえで大切なのは、正解率の反対側にある誤りだと思うのです。仮に正解率が70%だとすれば、30%は間違っているわけです。そこで注目すべきは、誤りの30%の中から改善できる点を見つけようとするスタンスではないでしょうか」


 単に正解と誤りを同次元でみていたのでは、気づかない視点。それは物事を判断する視点のレイヤーを一次元高めたときに得られるものだ。一段階高い視点から研究を改めてみたときに、これまで見逃されていたポイントが浮かび上がってくる。だから音をより細かく分ける視点に気づいたり、感情を単にラベリングするのではなく文章化する発想が浮かんでくる。永瀬さんの研究成果は今後、対話ロボットや自動応答システムでの人と機械の円滑なコミュニケーションに活用される可能性が考えられる。


「音声から人の感情表現をコンピュータ分析できる、つまり感情表現を数値化できるようになれば、誰かと話しているときに“この人は、いまこんな気持ちで話しているのだな”とリアルタイムに数値化して認識できるようになるかもしれません。そんな情景が思い浮かんでくるから、研究が面白くて仕方がない。今後の進路は決まっていませんが、できる限り研究を続けていきたいと思っています」


 永瀬さんの研究がさらに進んだ未来、そこでは人と人がより分かり合えるようになり、コミュニケーションにおけるちょっとした感情の行き違いから生まれる争いなどなくなっているのではないだろうか。