画像生成系AIの進化が凄すぎる件【AIネタ】 - 有給医のライフハック記録

生成系AI
特徴まとめ
- ・Stable Diffusion　webUI
- ・Novel AI
（現時点で）技術的に可能なこと
（現時点での）技術的な限界点
感想

生成系AI

いままでも触れたかと思いますが、

生成系AIの進歩がエグイです。

文章生成型のChat GPTが最近話題ですよね。

個人的には画像生成技術のほうに関心があって。

まずはそっち系を実際に触っている感じです。

実在しない風景とかを自由に作れるって、

フツーにスゴイじゃないですか。

特徴まとめ

ざっと使ってみた感触をレビューします。

画像をあげるのは著作権的にグレーな面もあるので、

控えます。

気になる人は、自分で調べて、環境を組んでやってください。

結局、自分で環境を組んで、体感するのが手っ取り早い。

以下、サービス利用の感想と技術的な概要をまとめます。

・Stable Diffusion　webUI

オープンソースのStable Diffujionのwebバージョン。

（本家はローカル環境のため、GPUなどのハード面の制約あり）

→Google Colaboratoryで動かせる。基本、無料。

→自分はColaboratoryは無課金派だが、問題なく動く。

風景画に強い。

→反面、人体は崩れやすい？

細かいモデル選択が可能。

どちらかというと汎用型、カスタマイズ型。

（オープンソースのため）

・Novel AI

海外製のwebサービス。課金制。

アカウント登録、主なサイト利用は英語で。

（最近は日本語対応しているっぽい）

風景画というより、アニメ調になりやすい。

人体は崩れにくい。

→学習元がイラスト投稿サイト？

（物議をかもしたらしい・・・）

テキストから画像生成、画像から画像生成

の２パターンが主体。

今後もいろいろモードが追加されそうな気配。

（現時点で）技術的に可能なこと

・とりあえず綺麗な絵を描くことにどちらも特化しています。

・イラスト限定ではなく、ほんものそっくりの写真調もできます。

・それぞれのシステムでは、せいぜい画像をつくるまで数十秒。

（現時点での）技術的な限界点

・たまに全く関係のない画像が出力されます。ガチャ感が強い。

・学習元のソースが不明瞭。ようするに「学んでいない画像」は当然ながら出力できない。マイナーな画像（たとえば医学画像）にはめっぽう弱い。

→追加学習（転移学習、ファインチューニング）の知識があれば突破できるだろう。

→ファインチューニングするにしても、それこそ僕のようなGoogle Colaboratory無課金派では学習のためのGPU利用時間が足らない問題が発生するのは必至。

・こと人体に関して「同じ人物を異なる角度で・・・」などのオーダーは通らない。

→一見できそう（簡単に一部分を変えるのはimg2imgで可能）だが、大幅にアングルを変えるなど、予測が難しいプロンプトを入れると、もと画像自体が崩れる。

感想

すごいっす（ボキャ貧）。

まったく絵心のない自分でも、綺麗な風景画を作れます。

あと写真も。

現時点では学習元のソースは、サービス提供者に依存するスタイルです。

今後、利用者が学習させることのできるスタイル、いうなれば「利用者によるファインチューニングケース」が増えてくることが予想されます。

日本ではmimicが問題となりましたが、まさにこの「利用者によるファインチューニング」が大衆、というかアーティストの怒りの導火線に火をつけたようです。

が、海外ではそのようなサービスもじきに実装されるでしょうし、やはり日本の「火消し文化」はIT分野での遅れにつながると確信した次第です。

語郎