有給医のライフハック記録

医師の語る人生最適化戦略

画像生成系AIの進化が凄すぎる件【AIネタ】

 

生成系AI

いままでも触れたかと思いますが、

生成系AIの進歩がエグイです。

文章生成型のChat GPTが最近話題ですよね。

 

個人的には画像生成技術のほうに関心があって。

まずはそっち系を実際に触っている感じです。

 

実在しない風景とかを自由に作れるって、

フツーにスゴイじゃないですか。

 

最近は

・Stable Diffusion webUI 

・Novel AI

あたりを楽しんでいます。

 

特徴まとめ

ざっと使ってみた感触をレビューします。

 

画像をあげるのは著作権的にグレーな面もあるので、

控えます。

 

気になる人は、自分で調べて、環境を組んでやってください。

結局、自分で環境を組んで、体感するのが手っ取り早い。

 

以下、サービス利用の感想と技術的な概要をまとめます。

 

・Stable Diffusion webUI 

オープンソースのStable Diffujionのwebバージョン。

(本家はローカル環境のため、GPUなどのハード面の制約あり)

Google Colaboratoryで動かせる。基本、無料。

→自分はColaboratoryは無課金派だが、問題なく動く。

 

風景画に強い。

→反面、人体は崩れやすい?

 

細かいモデル選択が可能。

どちらかというと汎用型、カスタマイズ型。

オープンソースのため)

 

・Novel AI

海外製のwebサービス。課金制。

アカウント登録、主なサイト利用は英語で。

(最近は日本語対応しているっぽい)

 

風景画というより、アニメ調になりやすい。

人体は崩れにくい。

→学習元がイラスト投稿サイト?

(物議をかもしたらしい・・・)

 

テキストから画像生成、画像から画像生成

の2パターンが主体。

今後もいろいろモードが追加されそうな気配。

 

(現時点で)技術的に可能なこと

・とりあえず綺麗な絵を描くことにどちらも特化しています。

 

・イラスト限定ではなく、ほんものそっくりの写真調もできます。

 

・それぞれのシステムでは、せいぜい画像をつくるまで数十秒。

 

(現時点での)技術的な限界点

・たまに全く関係のない画像が出力されます。ガチャ感が強い。

 

・学習元のソースが不明瞭。ようするに「学んでいない画像」は当然ながら出力できない。マイナーな画像(たとえば医学画像)にはめっぽう弱い。

→追加学習(転移学習、ファインチューニング)の知識があれば突破できるだろう。

→ファインチューニングするにしても、それこそ僕のようなGoogle Colaboratory無課金派では学習のためのGPU利用時間が足らない問題が発生するのは必至。

 

・こと人体に関して「同じ人物を異なる角度で・・・」などのオーダーは通らない。

→一見できそう(簡単に一部分を変えるのはimg2imgで可能)だが、大幅にアングルを変えるなど、予測が難しいプロンプトを入れると、もと画像自体が崩れる。

 

感想

すごいっす(ボキャ貧)。

まったく絵心のない自分でも、綺麗な風景画を作れます。

あと写真も。

 

 

現時点では学習元のソースは、サービス提供者に依存するスタイルです。

 

今後、利用者が学習させることのできるスタイル、いうなれば「利用者によるファインチューニングケース」が増えてくることが予想されます。

 

日本ではmimicが問題となりましたが、まさにこの「利用者によるファインチューニング」が大衆、というかアーティストの怒りの導火線に火をつけたようです。

 

が、海外ではそのようなサービスもじきに実装されるでしょうし、やはり日本の「火消し文化」はIT分野での遅れにつながると確信した次第です。

 

 

語郎