 |
 |
シリーズコラム 「社会を支える人工知能」 |
【第11回】 AIを使って四方山話をテキストマイニング!
|
|
 |
|
 |
|
下図は、「知取気亭主人の四方山話」の784記事における名詞の出現頻度をワードクラウドで表現したものです。
文字サイズが大きい名詞は出現頻度が高く、小さいものは低いことを示しています。
このようにテキストを対象とした分析は一般的にテキストマイニングと呼ばれています。
図1 四方山話における名詞の出現頻度
今回は、AI技術を用いて、15年に渡って連載されている「知取気亭主人の四方山話」の記事をテキストマイニングしてみようと思います。
今回利用するAI技術は、データの特徴を自動で抽出して複数のデータをグループ化(クラスタリング)する技術です。
この技術は教師なし学習の1手法であり、「人間では見出すことが困難なデータの特徴を捉えてくれる人工知能」で説明しています。
さて、テキストマイニングは様々なことができるため、まず目的を決めましょう。
今回の目的は
どの時期に、どのようなキーワードが含まれている記事を書いたのかについて傾向を掴む
こととします。
これを知って、誰が嬉しいのかは考えないこととしましょう。強いて言えば、知取気亭主人ぐらいでしょうか。
ここからは少し技術的な話なります。今回のテキストマイニングは以下の流れで行いました。
1. |
全記事からテキストを取得。 |
2. |
取得したテキストからURL、記号や数値などテキストマイニングで不要な単語を削除。 |
3. |
不要な文字列を削除したテキストから名詞と動詞を取得。動詞は「切れ」や「抜け落ち」など基本形でないものは、「切れる」や「抜け落ちる」と基本形に統一しました。 |
4. |
取得した名詞と動詞の辞書を作成。 |
5. |
辞書を元に、教師なし学習で各記事のテキストを10グループに分ける。 |
2.と3.については、当初、どのような単語をテキストマイニングやAI技術に利用するべきなのか不明であったため、何度も結果を確認して削除すべき単語を選定しました。
それでは、各グループの特徴を見てみましょう。
図2は各グループで特徴となる単語を示しており、各単語の青丸サイズが大きいほど、そのグループで影響力が大きい単語であることを示しています。
分かりやすく言えば、テキスト内に「事故」と「事件」と「雨」が多く含まれている場合、その記事はグループ1に属することとなります。
図2 各グループの特徴となる単語
グループ1に属する記事は地震や雪などの事故や災害に関するものとなっています。
また、グループ10では「花」、「植物」、「写真」と「咲く」が含まれているため、植物を話題とした記事が属していると考えられます。
図3 各グループの記事が掲載された時期
グループ1とグループ6は断続的に書かれていることが分かります。グループ9は2014年辺りから多くなっています。
一方、植物の話題とであるグループ10の記事は2010年中頃から少なくなっています。
これに関しては、知取気亭主人さんがこの時期から植物に興味がなくなってしまったのか、もしくは、グループ化が上手くいっていないのかを記事を実際に見て調査する必要があるかと思います。
さて、今回は教師なし学習のAI技術を利用したテキストマイニングについてお伝えさせていただきました。
テキストマイニングで有益な知見を得ることができます。
これまで蓄積された報告書や論文に対してテキストマイニングすることで、思いもよらない知見を得ることができる可能性があります。