例えば選挙演説の中で繰り返し使われたキーワードを調べて、それぞれの候補者が強調した主張が何だったのかを、機械的かつ正確に要約する。あるいは新聞記事に頻出する言葉や、言葉同士のつながり方から、社会の中で共有されている考え方を浮き彫りにする。このようにテキスト(文章型)データを計量的に分析することで、人が読むだけでは掴みきれないような情報を、はっきりと可視化できる。
「手作業で情報を分類して数え上げる内容分析(content analysis)という手法は、社会学において古くから用いられてきました。近年ではコンピュータの発達によって扱える情報量が劇的に増大しています。『テキストマイニング』と呼ばれる、大量の文章型データをコンピュータで分析する情報技術も進歩してきました」。そう解説した樋口耕一は、マス・メディアの報道内容やアンケートの自由記述といったデータを使って、社会の中で情報がどのように獲得・解釈され伝達されるのか、そのプロセスを探っている。また、そうした文章型データを計量的に分析するための方法を研究している。
樋口は文章型データを計量的に分析するためのフリーソフトウェア「KH Coder」を開発し、2001年から公開している。「KH Coder」は、それまで一部でしか使われていなかったこの分析手法を多くの研究者に普及させる上で大きな役割を果たし、今も進化を続けている。「有名な人が『この文章はこういう意味だ』と言ったから、こういう意味なんだよ。もしこれだけで議論が終わってしまっては、あまりおもしろくありませんし、学問も進歩しないでしょう。統計的・客観的な根拠にもとづいた『オープンな議論』が盛り上がれば良いなと考えました」と樋口は「KH Coder」開発の意図を語る。
「KH Coderは大きく2段階の分析機能を備えています」と樋口。第1段階では、文章型データの中に多く出現した言葉を機械的に取り出して集計・可視化する。言葉同士のつながり方を描く「共起ネットワーク」という方法がこの段階では多用される。第2段階では分析者にとって重要な意味を持つコンセプトを取り出して集計する。2つの段階を設けたことで、第1段階で大量のデータを自動分析できるとともに、その結果を参考にして第2段階では、分析者独自のコンセプトを使った分析に踏み込めるようになった。また第1段階の結果と照らし合わせることで、独自コンセプトの妥当性を第三者がチェックできるようになった。
これまでに樋口は自分自身で「KH Coder」を使用した研究も発表してきた。高校生約5000名に「東日本大震災について、どのようなことを感じたり、考えたりしているか」を自由に答えてもらった研究がその1つだ(阪口・樋口 2015)。「KH Coderで回答から頻出する言葉を取り出して、共起ネットワークを作成すると、『生きる』『いのち』『家族』『大切』などの言葉同士のつながりが明らかになりました[図1]。元データを検索すると『家族や友達を大切にしようと思った』といった回答が見られます」と樋口。また脱原発に対する賛否と性別の関連を見ると[図2]、男性は電力供給や報道のあり方といった社会の大きな仕組みに意識を向けて、脱原発には向かいにくい傾向があった。一方で女性は家族・友人のような身近な人の大切さに思いをはせ、脱原発に親和的な傾向が見られた。
「その他に文理のクラス別に見ると、理系クラスの回答から『事故』『危険』『汚染』『天災』などの語が多く抽出されました。これらの語を含む回答は、『リスク』というコンセプトに言及したと見なして第2段階の分析を行いました。すると理系の生徒は『リスク』のことを強く意識しつつも、『リスク』はコントロール可能と見なして脱原発には向かわない傾向がありました」
「KH Coder」を公開してからも樋口は開発を継続し、より使いやすくするために統計分析や可視化の機能を追加してきた。さらに産学連携の成果として、株式会社SCREENアドバンストシステムソリューションズより機能追加プラグイン「文錦®」シリーズが発売されている。
「KH Coder」の利用は年々増え続け、いまや研究事例が年間約400件を超える。利用者も研究者から大学院生や学生、さらに一般ユーザーにまですそ野が広がりつつある。「特に若い学生さんは自由な発想で『KH Coder』を使ってくださるので『こんな題材で、こんなことができるのか』と刺激を受けます」と樋口。
「KH Coder」の利用が広がる中で樋口は現在、「KH Coder」を使った分析の「質の向上」に目を向けている。そのために、計量テキスト分析と「KH Coder」を上手く活用した研究を集めたレビュー論文の執筆や、一般公開セミナーの開催にも意欲的に取り組む。「どれだけ多機能・高機能にしてもそれだけでは『意味のある分析』や『おもしろい研究』にはつながりません。得られた結果のどこに新しさや面白さがあるのか。それを見つけることが研究の醍醐味です」。