【初心者でもかなり簡単!】Stable DiffusionおよびSoraで始める機械学習の世界 - AIを活用した創造的表現の新時代かも
Stable Diffusionに取組んだのは、2024年1月くらい( OpenAIのSoraは、もっとずっと後の2025年1月)でして、本記事執筆時の今は他のことに取組んでますので、後だしじゃんけんですが。
機械学習技術の進化が止まらない今、Stable Diffusionなどの画像生成AIは創造性を広げる強力なツールだと思いますので紹介してみます。
一見難しそうに思えますが、実は初心者でも割に手軽に体験できるのが魅力です。
静止画像をベースにプロンプトを工夫することでユニークな動画を簡単に作れたりもします。
百聞は一見に如かずなので、例えば以下のような写真画像。
これは、某県内某所の高層階のレストランで昨年9月半ば( 中秋の名月の日 )に子供と一緒にランチを食べ終えて、くつろいでいた時に撮影したものです。
画像の左上に飛行機が飛んでいるのも見えます。<小さな白い点に見えるかも>
ふと窓の外に目をやると、なんだか麒麟ビールのロゴに似た神獣が空を駆けているように見えました(目に飛び込んできました)。
以下は拡大version。
※北野天満宮拝殿の麒麟の彫刻像に、なんとなく似ています。
驚きとともに妙にリアルに感じたので、慌ててスマートフォンで撮影。
この静止画像をベースにOpenAIのSoraで、GIF動画にしたものが以下でしてAIの力を借りて設定やプロンプトを工夫すれば創造的な動画を、あまり専門知識を必要とせず作れます。
本記事は、Stable DiffusionやOpenAIのSoraを使った画像・アニメーション生成で私の方で実際に作成した実例を交えてますから、こういうのを入り口にして機械学習に取組むきっかけになれたらと思います。
と言うことで、前置きは、これくらいにして記事を進めますが、、
前置きで紹介したStable Diffusionなどの機械学習コ-ディングの延長スキルとかも、
人によっては、無駄技術という批判を浴びそうですけども(;^_^A
感受性を司るとこレベルで人を変革する方法論である潜在意識領のクリ-ニングの重要性を、
インパクトを強くして伝えてやりたいというので、例えば
STEP1の冒頭のイラスト画像
さらには、これのアニメ-ションgif化
これも機械学習のコ-ディングの延長でStable Diffusion等を使って私自身のWEBでの表現力が、ほんの少しだけ増したことで作ることが出来たものです。
「む、無駄」。
という声が聞こえてきそうで苦笑いでして、他にもほんとはやらないといけないこといっぱいあるんですけど、、、
作成手順は、npakaさんのStable Diffusion web UI (AUTOMATIC1111) の使い方のペ-ジを参考に
これをベ-スにDOCKERで環境構築しStable Diffusionのプロンプトや設定を弄りまわすことでStable Diffusionで画像生成の基本スキルを身に着けました。
npakaさんのペ-ジは、シンプルで初心者にも、わかりやすくお薦めです。
その後、その基本スキルを少しずつ高め発展させて鷹の目週末プログラマ-さんの画像から動画を作る新技術Stable-Video-Diffusion(SVD)環境構築 徹底解説のペ-ジを参考に静止画像を動画化し作ったものです。
ライフワ-ク的なサイトのデザイン図柄の自前製作に、ほんの少しは貢献している(はず)と言い聞かせています。
ここで簡単に拡散モデルについて述べるなら、
これだって先に動画で紹介した自作音声応答チャットボットと同じく機械学習の技術の結晶と言えるものです。
これは、Latent Diffusion Model(LDM)に基づく最先端の画像生成モデルです。
手を動かし試行錯誤しながら、この分野について技術論文なども読み学んでいくうちに少しだけ詳しくなったので、やや専門的な話をすると、
Stable DiffusionやOpenAIのSoraStable Diffusionなどを支える技術は、画像生成に高次元ベクトル空間である「潜在空間」を活用する技術がコアになります。
潜在空間では、画像の特徴を表すベクトルが点として分布しており、それぞれのベクトルは画像の特定の属性(色、形、質感など)に対応します。
この潜在空間にランダムなベクトルを注入することで、ノイズを加え、多様な画像生成を可能にするんです。
拡散モデルという数学的手法を用いて、このノイズから徐々に目指す画像へと導きます。
このプロセスをStable DiffusionのWEB UIで体験すると、プロンプトに応じた画像が、もやもやとした雲様のノイズから徐々に明瞭な画像へと変化する様子を実感できると思います。
このモデルの基盤となった拡散モデルは、ドイツの非営利団体LAION ( Large-scale Artificial Intelligence Open Network)で開発されました。
公式には訓練に使用された画像の正確な数は公開されていませんが、様々な情報源から約8億枚の画像が使われたと推測されています。
膨大なテキストと画像のデータセットで訓練された結果、これらのモデルは多様なスタイルやシナリオに対応する柔軟な画像生成を可能にし
非常に優れた性能を発揮していますが、これだけ高性能で無料で使えるのに未だ進化途上というのが驚きです。
この技術を使いこなせば、教育、エンターテインメント、デザインなど、さまざまな分野で創造的な表現の幅を広げることができます。
テキスト系にしろ画像系にしろ生成系AIは、社会を大きく変革する技術の一つでしょう。
PS
おまけ1
以下の画像も、プロンプト研究の一環で実験的に作製したもの。FLUX.1 [schnell]で作りました。
以下のプロンプトを上記FLUX.1 [schnell]のEnter your prompt欄に入力し、RUNを実行。( FLUX.1 [schnell]に、以下のプロンプトを入力すればオンラインで再現できるはずです。ただし数枚程度でFREE SPACEの制限がかかるかも。お試し程度に使えます )
Ultra-high-definition, surrealist scene of a colossal white Eastern dragon and a serene Japanese woman in a flowing pale-gold silk kimono embroidered with silver cloud motifs and tied with a shimmering silver obi. The dragon’s pearly scales glisten with iridescent highlights, its aquamarine eyes filled with gentle wisdom. She sits gracefully beside it as warm golden-hour light streams through softly blurred peach-blossom branches, casting volumetric rays and drifting petals on a light breeze. Hyper-realistic textures—fine porcelain skin, intricate scale patterns, delicate embroidery—and a shallow depth of field with creamy bokeh and subtle lens flare create an ethereal, dreamlike atmosphere. Composition balanced yet dynamic, evoking awe and emotional resonance in breathtaking detail. --ar 16:9 --v 5 --q 2
そうして得たのが以下(および上記)の画像です。
この静止画像をベースにsoraを使って5~10秒のGIF動画を作ることもできます。
構図設定を1:1、720p、5s、Balloon World v1 プリセットで花びらの浮遊感やソフトな空気感が自動で加わるように設定。
念のため以下のプロンプトも追加。
Ultra-high-definition, surrealist scene of a colossal white Eastern dragon…
gentle zoom, drifting peach-blossom petals, volumetric light rays
そして↑をクリックしたら、2分もかからず以下の動画をAIが作製してくれました。
さらに、これを弄って、ベースにしつつ女性の雰囲気および特徴、着物を少し変え、かつ浮世絵の版画風線画として描画
細かいプロンプト設定をし以下のようなGIF動画もsoraで作製できます。
おまけ2
以下も、プロンプト研究の一環で実験的に作製したもの。これはHaiperで作りました。
AIアシスタント(Gemini 、chatGPT)とDALL_Eを組み合わせて4コマ漫画作成を依頼し、
さらにプロンプトを作って画像ベ-スでHaiperにプロンプトを入力。
昨今のAIは、組み合わせれば、プロンプトだけで、こんなことが出来るのだと少し感動しました。
4コマ漫画を4画面、同時並行で動かしているのがユニ-クな気がします。
おまけ3
以下のような動画も、さしたる専門知識がなくてもstable diffusionとsoraというAIツールを連携させることで作ることができます。
ビジネスには、あまり役立ちませんが、ちょっとした遊び心で気晴らし( 気分転換 )にはなるかもしれません。