![]() |
|
|||||
![]() |
ディープラーニング(深層学習)の登場により、画像分類ではAIが人間を超えたと言われています。しかしながら、何を根拠に画像を分類したのかは不明でした。近年、このブラックボックスを解明するための研究が行われています。今回は、画像分類の根拠を可視化する研究について紹介させていただこうと思います。
AIは学習で多量の画像から各分類項目の特徴を抽出します(図1)。この特徴を有している部分を可視化すれば、分類根拠が分かるかもしれません。
図1 AIは各分類項目の特徴を取得
この可視化に試みた研究がいくつかあり、その中のGrad-CAM[1]というものを試してみました。Grad-CAMは分類された項目の特徴をヒートマップとして出力します。このヒートマップと画像を重ね合わせることで、画像のどの部分を見て分類したのかが分かります。
表1は、筆者が撮影した3画像でGrad-CAMを試した結果です。画像分類のAIは3つの入力画像をマルチーズ、掛け時計と登山テントに分類しました。ヒートマップと重ね合わせた画像を見ると、確かに各分類項目の特徴的な部分が赤くなっており、この部分をみて分類したと分かります。
| 分類結果 | 入力画像 | ヒートマップとの重ね合わせ |
| マルチーズ | ![]() |
![]() |
| 掛け時計 | ![]() |
![]() |
| 登山テント | ![]() |
![]() |
ただし、登山テントには椅子が2脚も写っていますが、椅子とは分類されませんでした。なぜでしょう?
テントやタープが画像の中心に写っているからでしょうか?
試しに、加工してテントとタープを画像の中心からずらしてみました。表2に示すように、テントとタープを上部に写っていますが、登山テントと分類されました。ヒートマップの重ね合わせを見てもテントに反応しています。どうも位置は関係がないようです。
| 分類結果 | 入力画像 | ヒートマップとの重ね合わせ |
| 登山テント | ![]() |
![]() |
では、最も反応しているテントの一部が欠けるようにした場合どうなるでしょうか?表3のように、分類結果は折り畳み椅子と変化しました。テント全体が写った場合は登山テントと分類されるようです。
| 分類結果 | 入力画像 | ヒートマップとの重ね合わせ |
| 折り畳み椅子 | ![]() |
![]() |
このように、Grad-CAMを利用すれば、AIがどこを見て分類しているのかという根拠が分かります。Grad-CAM以外にも、AIの判断根拠を探るための様々な手法が日々提案されています。AIのブラックボックス化が解消されれば、土木業界でもAIが適応できる範囲が更に広がるかもしれません。
| [1] | Ramprasaath R. Selvaraju, Michael Cogswell, Abhishek Das, Ramakrishna Vedantam, Devi Parikh and Dhruv Batra, “Grad-CAM: Visual Explanations from Deep Networks via Gradient-Based Localization”, IEEE International Conference on Computer Vision (ICCV2017), pp.618-626, Oct. 2017. |











