シリーズコラム　「社会を支える人工知能」

【第１６回】：驚くほど高品質な画像をAIで生成してみよう！

　前回の記事から4年ほど経過してしまいましたが、「社会を支える人工知能」が復活します。復活後は2～3ヶ月間隔でコラムを書いていきますので、お付き合いいただければと思います。

　この4年間で、人工知能（AI）技術は非常に発展しました。土木分野におけるAIの活用事例も、かなり多くなったと感じています。国土交通省もAI活用に本腰を入れ始め、土木系学会でもAI活用に関する発表が多くなりました。

　筆者は、2018年頃から土木＋AIに関して研究発表をしてきましたが、当時は、土木分野でのAI活用に関する研究発表は多くはなかった覚えがあります。ところが、今では、砂防学会や地盤工学会などの土木系学会の研究発表会においてAI活用の研究発表は非常に多いです。土木学会全国大会の年次学術講演会（9月開催）では、AIのセッションが2日間も開かれます。また、土木分野のAIやデータ分析に特化したAI・データサイエンスシンポジウムも開催されるようになりました。

　このように、この4年間でAI活用が活発化した要因の1つは、土木分野でAIを利用できる場面が明確になったからではないかと思っています。当時は「何にAIが使えるだろう？」でしたが、「この場面でAIは使えるのか！じゃあ、試しにやってみよう！」に変化したのではないでしょうか。

　さて、4年間の個人的な振り返りや感想はここまでとして、今回は画像生成AIについてお伝えしようと思います。以下の3画像は、AIが入力された英文から生成した画像です。誰かが撮影した写真ではないのかと思うぐらいの、驚くべきクオリティの画像を生成しています。

図1　AIに英文を入力して生成した画像
（左：a bird on tree　中央：beautiful flower　右：person wearing yellow coat）

　これらの画像生成には、画像生成AIの一種であるStable Diffusion[1]を使いました。このStable Diffusionは数十億という膨大な枚数の画像で学習し、英文や英単語から画像を生成できるようにしたAIです。クオリティが非常に高い画像を生成するため、一時期は世界中で話題になりました。

　先程は一般的な画像を生成しましたが、Stable Diffusionを使って土木関連の画像を生成してみましょう。どのような画像を生成するでしょう。

　まずは、“landslide”という英単語で生成した画像です（図2）。ぱっと見では、地すべり後の写真に見えますが、細かく見ると不自然な点が多く、現実世界の地すべりではないと分かります。ただし、専門家以外の人にとっては、この不自然さを感じられないため、「おお、これが地すべりか！」と思うのではないでしょうか。

図2　“landslide”を入力して生成した画像

　次に、“sabo dam in forest”という英文から画像を生成してみました（図3）。砂防堰堤を意識して“sabo dam”というキーワードを入れてみましたが、ダムのような絵面の画像を生成しました。森林と水面は素晴らしいクオリティですが、ダム自体は一般の人でも分かる程度の不自然さがあります。（“sabo”は英語として通じることを初めて知りました）

図3　“sabo dam in forest”を入力して生成した画像

　最後に、法枠を意識して“slope protection frame”から画像を生成してみました（図4）。“slope”から斜面を生成したところまでは良いのですが、肝心の法枠の“protection frame”がフェンスのような物体として生成してしまっています。これは、学習に使った画像の中に、法枠の画像が含まれていなかったことが原因だと考えられます。

図4　“slope protection frame”を入力して生成した画像

　復活後の1発目として、今回は、画像生成AIについてお伝えしました。画像生成AIが、土木分野おいて今後どのように活用されるのか楽しみです。次回は、今話題のchatGPTに関してお伝えしようと思います。

　[1] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, BjÖrn Ommer, “High-Resolution Image Synthesis With Latent Diffusion Models”, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 10684-10695, 2022.

ページの先頭に戻る