生成系AI
いままでも触れたかと思いますが、
生成系AIの進歩がエグイです。
文章生成型のChat GPTが最近話題ですよね。
個人的には画像生成技術のほうに関心があって。
まずはそっち系を実際に触っている感じです。
実在しない風景とかを自由に作れるって、
フツーにスゴイじゃないですか。
最近は
・Stable Diffusion webUI
・Novel AI
あたりを楽しんでいます。
特徴まとめ
ざっと使ってみた感触をレビューします。
画像をあげるのは著作権的にグレーな面もあるので、
控えます。
気になる人は、自分で調べて、環境を組んでやってください。
結局、自分で環境を組んで、体感するのが手っ取り早い。
以下、サービス利用の感想と技術的な概要をまとめます。
・Stable Diffusion webUI
オープンソースのStable Diffujionのwebバージョン。
(本家はローカル環境のため、GPUなどのハード面の制約あり)
→Google Colaboratoryで動かせる。基本、無料。
→自分はColaboratoryは無課金派だが、問題なく動く。
風景画に強い。
→反面、人体は崩れやすい?
細かいモデル選択が可能。
どちらかというと汎用型、カスタマイズ型。
(オープンソースのため)
・Novel AI
海外製のwebサービス。課金制。
アカウント登録、主なサイト利用は英語で。
(最近は日本語対応しているっぽい)
風景画というより、アニメ調になりやすい。
人体は崩れにくい。
→学習元がイラスト投稿サイト?
(物議をかもしたらしい・・・)
テキストから画像生成、画像から画像生成
の2パターンが主体。
今後もいろいろモードが追加されそうな気配。
(現時点で)技術的に可能なこと
・とりあえず綺麗な絵を描くことにどちらも特化しています。
・イラスト限定ではなく、ほんものそっくりの写真調もできます。
・それぞれのシステムでは、せいぜい画像をつくるまで数十秒。
(現時点での)技術的な限界点
・たまに全く関係のない画像が出力されます。ガチャ感が強い。
・学習元のソースが不明瞭。ようするに「学んでいない画像」は当然ながら出力できない。マイナーな画像(たとえば医学画像)にはめっぽう弱い。
→追加学習(転移学習、ファインチューニング)の知識があれば突破できるだろう。
→ファインチューニングするにしても、それこそ僕のようなGoogle Colaboratory無課金派では学習のためのGPU利用時間が足らない問題が発生するのは必至。
・こと人体に関して「同じ人物を異なる角度で・・・」などのオーダーは通らない。
→一見できそう(簡単に一部分を変えるのはimg2imgで可能)だが、大幅にアングルを変えるなど、予測が難しいプロンプトを入れると、もと画像自体が崩れる。
感想
すごいっす(ボキャ貧)。
まったく絵心のない自分でも、綺麗な風景画を作れます。
あと写真も。
現時点では学習元のソースは、サービス提供者に依存するスタイルです。
今後、利用者が学習させることのできるスタイル、いうなれば「利用者によるファインチューニングケース」が増えてくることが予想されます。
日本ではmimicが問題となりましたが、まさにこの「利用者によるファインチューニング」が大衆、というかアーティストの怒りの導火線に火をつけたようです。
が、海外ではそのようなサービスもじきに実装されるでしょうし、やはり日本の「火消し文化」はIT分野での遅れにつながると確信した次第です。
語郎