いさぼうネット
賛助会員一覧
こんにちはゲストさん

登録情報変更(パスワード再発行)

  • rss配信いさぼうネット更新情報はこちら
 シリーズコラム 「社会を支える人工知能」 
【第16回】:驚くほど高品質な画像をAIで生成してみよう!
 

 前回の記事から4年ほど経過してしまいましたが、「社会を支える人工知能」が復活します。復活後は2〜3ヶ月間隔でコラムを書いていきますので、お付き合いいただければと思います。

 この4年間で、人工知能(AI)技術は非常に発展しました。土木分野におけるAIの活用事例も、かなり多くなったと感じています。国土交通省もAI活用に本腰を入れ始め、土木系学会でもAI活用に関する発表が多くなりました。

 筆者は、2018年頃から土木+AIに関して研究発表をしてきましたが、当時は、土木分野でのAI活用に関する研究発表は多くはなかった覚えがあります。ところが、今では、砂防学会や地盤工学会などの土木系学会の研究発表会においてAI活用の研究発表は非常に多いです。土木学会全国大会の年次学術講演会(9月開催)では、AIのセッションが2日間も開かれます。また、土木分野のAIやデータ分析に特化したAI・データサイエンスシンポジウムも開催されるようになりました。

 このように、この4年間でAI活用が活発化した要因の1つは、土木分野でAIを利用できる場面が明確になったからではないかと思っています。当時は「何にAIが使えるだろう?」でしたが、「この場面でAIは使えるのか!じゃあ、試しにやってみよう!」に変化したのではないでしょうか。

 さて、4年間の個人的な振り返りや感想はここまでとして、今回は画像生成AIについてお伝えしようと思います。以下の3画像は、AIが入力された英文から生成した画像です。誰かが撮影した写真ではないのかと思うぐらいの、驚くべきクオリティの画像を生成しています。

図1 AIに英文を入力して生成した画像
(左:a bird on tree 中央:beautiful flower 右:person wearing yellow coat)

 これらの画像生成には、画像生成AIの一種であるStable Diffusion[1]を使いました。このStable Diffusionは数十億という膨大な枚数の画像で学習し、英文や英単語から画像を生成できるようにしたAIです。クオリティが非常に高い画像を生成するため、一時期は世界中で話題になりました。

 先程は一般的な画像を生成しましたが、Stable Diffusionを使って土木関連の画像を生成してみましょう。どのような画像を生成するでしょう。

 まずは、“landslide”という英単語で生成した画像です(図2)。ぱっと見では、地すべり後の写真に見えますが、細かく見ると不自然な点が多く、現実世界の地すべりではないと分かります。ただし、専門家以外の人にとっては、この不自然さを感じられないため、「おお、これが地すべりか!」と思うのではないでしょうか。

図2 “landslide”を入力して生成した画像

 次に、“sabo dam in forest”という英文から画像を生成してみました(図3)。砂防堰堤を意識して“sabo dam”というキーワードを入れてみましたが、ダムのような絵面の画像を生成しました。森林と水面は素晴らしいクオリティですが、ダム自体は一般の人でも分かる程度の不自然さがあります。(“sabo”は英語として通じることを初めて知りました)

図3 “sabo dam in forest”を入力して生成した画像

 最後に、法枠を意識して“slope protection frame”から画像を生成してみました(図4)。“slope”から斜面を生成したところまでは良いのですが、肝心の法枠の“protection frame”がフェンスのような物体として生成してしまっています。これは、学習に使った画像の中に、法枠の画像が含まれていなかったことが原因だと考えられます。

図4 “slope protection frame”を入力して生成した画像

 復活後の1発目として、今回は、画像生成AIについてお伝えしました。画像生成AIが、土木分野おいて今後どのように活用されるのか楽しみです。次回は、今話題のchatGPTに関してお伝えしようと思います。

 [1] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, BjÖrn Ommer, “High-Resolution Image Synthesis With Latent Diffusion Models”, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 10684-10695, 2022.

Copyright(C) 2002- ISABOU.NET All rights reserved.