【visual anagrams】上から見ても下から見ても絵になる！騙し絵を作る画像生成AIを使ってみた

WEEL一押しの生成AI 個人開発画像生成オープンソースAI 生成AIずかん

2023-12-062024-07-12

WEELメディア事業部LLMライターのゆうやです。

visual_anagramsは、180度回転させたりジグソーパズルのように画像の一部分を他の部分と入れ替えることで、全く違う絵や画像になる所謂「だまし絵」を画像生成AIを使って生成する新しい技術です。

以下の画像は実際に生成されただまし絵です。

an oil painting of a snowy mountain village

画像生成AIでここまで精巧なだまし絵が生成できるようになるのはすごいことですよね！

今回は、visual_anagramsの概要や使ってみた感想をお伝えします。

是非最後までご覧ください！

＼生成AIを活用して業務プロセスを自動化／

【無料】専門家に相談する

visual_anagramsの概要

突然ですが、この絵を見て何か気づくことありますか？

これは鹿の絵ですが、これを90°時計回りに回転させると…

トラックの絵になるんです！！

このだまし絵は、なんと画像生成AIによって生成されており、実際に私がvisual_anagramsを使用して生成したものになります。

visual_anagramsは、上の絵のように90°回転させたりジグソーパズルのように画像の一部分を他の部分と入れ替えることで、全く違う絵や画像になる所謂「だまし絵」を画像生成AIを使って生成する新しい技術です。

画像生成AIには、ピクセルベースの拡散モデルであるDeepFloyd IFを使用しています。

ここでStable Diffusionを使用しないのは、Stable Diffusionではだまし絵の生成中に「アーティファクト」が発生してしまうため使用できないそうです。

visual_anagramsは、複数の変換方法があり、先ほど90°回転に加えて、反転、 色の反転、スキュー、 ジグソーの並べ替え、ランダムな並べ替えなど多種多様な変換方法を選択できます。

例引用元：https://github.com/dangeng/visual_anagrams

このようなすごい技術を一体どのようにして実現しているのかというと、以下の図のような方法で実現しています。

引用元：https://dangeng.github.io/visual_anagrams/

その方法は意外に簡単で、拡散モデルを使い、さまざまなビューや変換におけるノイズを推定し、そのノイズの推定値を平均化することでだまし絵の生成を可能にしています。

もっと詳しく知りたい方は、以下のGithubページをご覧ください。

visual_anagrams

それでは早速使ってみて、どのようなだまし絵が生成できるのか試していきましょう！

まずは使い方から説明します。

＼画像生成AIを商用利用する際はライセンスを確認しましょう／

visual_anagramsの使い方

visual_anagramsは、以下のColabノートブックから実行することができます。

visual_anagrams.ipynb

ただ、注意点があり、visual_anagramsを動かすには最低でもV100GPUと40GB程度のRAMが必要なので、Google Colab Proに加入する必要があります。

今回は、余裕を持ってA100GPU、RAM80GBで実行していきます。

基本的にはそのまま上から実行すればいいのですが、ここでも注意点があります。

1点目は、Hugging Faceにログインするためにアクセストークンが必要になるので、あらかじめ取得しておく必要があります。

次に、以下のDeepFloyd IFのモデルカードで、ポリシーに同意しないとモデルがロードできないので、それもする必要があります。

DeepFloyd/IF-I-XL-v1.0

最後に、以下の画像の部分で変換方法とプロンプトを入力するのですが、プロンプトは「〜の油絵」といった絵画スタイルを指定すると、最もうまくいく可能性が高いそうです。

それでは早速実行していきましょう！

なお、絵を動画に変換してくれる魔法のAIツールLiveSketchについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
→【LiveSketch】AIの力で絵に命が宿る！AIでハリーポッターの世界が実現される

visual_anagramsを実際に使ってみた

まずはノートブックをそのまま実行してみます。

入力するプロンプトは以下の二つです。

'an oil painting of a snowy mountain village'
'an oil painting of a horse'

以下の画像が生成されました。

ちゃんと「馬」と「雪山の村」のだまし絵が生成されていますね！

A100GPUなら、モデルのロードも数分で完了し、画像の生成も10数秒で行えたので、Colab Proに加入している方は、A100を使用することをお勧めします。

次に、同じプロンプトで変換方法をJigsaw変更してみましょう。

ジグソーパズルになりましたが、ちょっと馬の目の感じが変になってますね。

最後にフリップにして、180°反転させてみます。

以下の画像が生成されました。

これは分かりやすいですが、ちゃんとだまし絵が生成されました。

ここからは、違うプロンプトを入力してだまし絵を生成してみようと思います。

visual_anagramsで生成しただまし絵をクイズ形式で出題！

ここからは、visual_anagramsで様々なプロンプトで生成しただまし絵して、何と何のだまし絵かクイズ形式で出題します。

まずは以下の車の絵です。

これを時計回りに90°回転すると、何の絵が浮かび上がるでしょう。

1.魚
2.飛行機
3.キッチン

正解は

・

3のキッチンです！

若干車のテール部分のところがなんなのか分からないですが、キッチンと判別つく絵が生成されていますね。

どんどんいきましょう！

次はこの絵です。

この絵はアインシュタインの絵ですが、この絵をジグソーパズルのように組み替えると何の絵になるでしょう？

1.車
2.モナリザ
3.徳川家康

正解は

・

2のモナリザでした！

これは左側にモナリザの顔があったので、簡単だったかもしれません。

固有名詞でも問題なく生成できるようですね。

最後に、試しに絵ではなく写真にしてだまし絵を生成させてみます。

この画像は本の画像ですが、これを180°回転させるとなんの画像になるでしょうか？

1.男性
2.犬
3.ペンギン

正解は

・

1の男性です！

やはり写真にすると、絵の時より明らかにだまし絵の品質が下がっているようです。

開発者の言う通り、visual_anagramsでだまし絵を生成するときは、絵画スタイルで生成するのが最も良い結果を得られるようです。

今回の検証結果をまとめると、visual_anagramsは絵画スタイルで生成させることで、人間が作り出すような精巧なだまし絵を生成できることがわかりました。

もしこの記事を読んで気になった方は、是非使ってみてください！

なお、Metaが開発した画像生成AIについて知りたい方はこちらの記事をご覧ください。
→【MAGNeT】Meta開発のテキストから音楽や音声を生成できるAIの使い方~実践まで

まとめ

この技術は、拡散モデルを使い、さまざまなビューや変換におけるノイズを推定し、そのノイズの推定値を平均化することでだまし絵の生成を可能にしています。

実際に使ってみると、絵画スタイルで生成させると、品質の高いだまし絵が生成できますが、写真スタイルだとうまくだまし絵が生成できなかったので、開発者が言っていた絵画スタイルが最もうまくいく確率が高いことが実証されました。

将来、このような画像生成AIの技術がさらに発展すれば、映画『インセプション』のように複雑な世界観を創り出せるようになるかもしれませんね。

生成系AIの業務活用なら！

・生成系AIを活用したPoC開発

・生成系AIのコンサルティング

・システム間API連携

無料ダウンロード

最後に

いかがだったでしょうか？

GPT-3.5 Turboの最新アップデートで、より高速かつ低コストでのAI活用が可能になりました。自社での導入・活用を検討する際に、最適なモデル選定や活用方法について、一緒に考えてみませんか？

弊社では

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ