教員コラム

文学部には100名を超える教員が在籍しています。一人ひとりのリアルな教育・研究活動を紹介します。

COLUMN

文学と工学が越境する「日本語コーパス」の学び

日本語情報学専攻

日本文学研究学域
教授

小椋 秀樹

「単純」と「シンプル」、これらはふだんよく使う、身近な言葉だと思います。では、この二つの言葉の違いを説明することができますか? 「単純なデザイン」「シンプルなデザイン」「単純な機能」「シンプルな機能」……というように、実際の使われ方を比べてみると、「単純」の方には「少し足りない」というネガティブな評価が含まれていることに気付くと思います。実はこの違いは、私のゼミの学生が「コーパス」を用いた研究で見付けたものです。コーパスとは、新聞、雑誌、本などの文章や、インターネットの文章、さらには話し言葉などを大量に集めて、言葉の使われ方を調べられるようにしたデータベースのことです。私は立命館大学に着任する前、国立国語研究所という日本で唯一の言葉に関する国の研究機関に13年半務め、そこで日本語コーパスの開発を担当していました。

コーパス検索結果画面

皆さんが使っているパソコン、スマホなどには、日本語を入力するための「かな漢字変換システム」や検索エンジン、Siriなどの対話システムなど、自然言語処理により開発された技術が搭載されています。自然言語とは、パソコンのプログラミング言語などとは違う、私たちが日常的に使っている言葉のことです。日常の言葉には、曖昧さや表記の揺れがたくさんあるので、コンピューターで自然言語を扱うためには大規模な言葉のデータベースが必要になります。20年ぐらい前の日本語の音声認識は間違いの多いものでしたが、その後、飛躍的に精度が向上しました。かな漢字変換も昔と比べて精度が向上しています。この背景には、コーパスの活用による自然言語処理技術の飛躍的な向上があります。

最近ではAIによって、人の話し言葉を自動的に外国語に翻訳する技術の開発が進んでいます。そうした最新のテクノロジーにもコーパスは欠かせません。私のゼミの学生の中には、ここで学んだ日本語のデータ解析の知識を生かして卒業後、IT企業に就職する人もいます。一見するとテクノロジーと縁遠いように思われる文学部の学びが、最新のITに生かされる時代となっているのです。立命館大学はコーパスを用いた日本語の研究に関して、日本の大学でトップレベルにあります。日本語が好きな方、ITに関心のある方は、ぜひここで学んでみてください。それまで想像したことのない、新しい世界が広がります。

PERSONAL

小椋 秀樹

専門領域:
コーパス日本語学、日本語の語彙・表記
オフの横顔:
コンサートに行くのが趣味です。とくにTHE ALFEEは中1のとき以来36年間ファンを続けており、関西だけでなく日本各地のコンサートを追いかけています。