「音」の有効活用による次世代共生社会の実現を目指して
R-GIROで行っている研究をおしえてください。
私は「音」を用いて、AIが周囲の環境を理解する研究と、「音」を通じてAIと人との自然なコミュニケーションを可能にする研究に取り組んでいます。前者では、音響イベント検知の研究を進めています。これは、周囲の物音を自動的に識別し、カメラに映らない場所で起こる状況も把握できる技術です。応用例として、家庭内で転倒やガラスの破損といった異常音を検知し、緊急事態を早期に発見して対応につなげる見守りシステムが考えられます。私の研究では、特に学習データが少ない状況でも高精度に認識できるよう、データ拡張手法の開発に取り組んでいます。
後者では、生成AIを活用して「音ピクトグラム」を自動生成する研究を行っています。視覚的なピクトグラムのように、言葉を介さず音で危険や注意、状況など多様な情報を直感的に伝えるサインを生成し、AIが人に分かりやすく情報を届けられる仕組みの実現を目指しています。応用例としては、火災発生時に警報音を自動生成して人に危険を直感的に伝えたり、病院や家庭などで注意喚起を分かりやすく行ったりすることが考えられます。これを自動的に生成できるようになれば、状況や緊急度に応じて、最適な音のサインを作り出すことが可能になります。
音響イベント検知の応用例
研究で未来をどう変えたいですか。
私の研究は、音を介して人とAIが共生する次世代共生社会の実現に一歩近づくことを目指しています。音には、視覚情報にはない独自の利点があります。例えば、音で異常状況を検知する際、映像のように人の顔や生活空間を直接記録しないため、プライバシーに配慮しやすいという特徴があります。また、音は聞こえる範囲で起こった出来事を捉え、直感的に人に情報を伝えることができます。一方で、タスクによっては音だけの利用には限界があります。そこで、音と視覚などの情報を組み合わせたマルチモーダル技術により、それぞれの強みを活かして、より柔軟で信頼性の高いAIを実現できると考えています。研究を通じて、人とAIが互いを補い合い、安心して共生できる未来の構築に貢献していきたいです。
異分野融合研究をどう思いますか。
実際の社会課題を解決するためには、異分野の研究者が協力することが不可欠だと感じています。私自身もこれまでに異分野融合の研究経験を重ねてきました。例えば、本R-GIRO研究プロジェクトのロボット研究者と協力し、家庭用ロボットの応用場面を想定して、非常に騒音の大きいサービス環境下では音声コマンド入力が困難になるという問題に取り組みました。私たち音チームは収録実験と分析を行い、その解決策として光レーザマイクロホンを用いた音声コマンド入力する手法を提案しました。この手法により、ロボット周囲に騒音があっても、ロボットが話者の近くの物体にレーザーを照射し、その振動を測定することでユーザーの音声を録音することが可能になります。
また、文学研究者と連携し、くずし字翻刻を支援する古文音声認識研究にも取り組みました。文学研究者が収集・構築したデータベースに基づき、私たち情報理工チームはくずし字の音声入力と認識システムを開発しました。これにより、専門家が朗読したくずし字音声を自動的にテキスト化し、翻刻作業を大幅に効率化することを目指しています。
いずれの場合も、お互いの専門知識や視点を持ち寄ることで、自分一人では想像できなかった発想が生まれ、研究の可能性が大きく広がりました。異なる分野の視点が交わることで、技術の精度だけでなく、研究の意義や応用範囲そのものも豊かになることを強く実感しています。
光レーザマイクロホンを活用し、雑音環境でもロボットが音声コマンドを認識できるようにする研究
(取材:2025年9月)
参加しているプロジェクト:記号創発システム科学創成:実世界人工知能と次世代共生社会の学融合研究拠点