【IDM-VTON】バーチャル試着ができる有能AIの性能を徹底解説！試着してみた感想も紹介！

AIツール

2024-06-12

WEELメディア事業部リサーチャーのいつきです。

突然ですが、みなさんはバーチャル試着用生成AI「IDM-VTON」をご存知でしょうか。IDM-VTONは、人物モデルと服装の画像をそれぞれアップロードするだけで、バーチャル試着体験ができる便利なAIです。

ユーザーは実際に試着することなく、さまざまな服装を試せるので、今後はブティックを中心にファッション業界で普及していくでしょう。

今回の記事では、IDM-VTONの概要やその仕組みについて掘り下げて解説していきます。

最後までお読みいただくと、今後のファッション業界で広く普及していくであろうAI技術をいち早く知れるので、新規・既存問わずさまざまな事業に活かせるかもしれません。

ぜひ最後までご覧ください。

＼生成AIを活用して業務プロセスを自動化／

【無料】専門家に相談する

バーチャル試着用生成AI「IDM-VTON」とは？

バーチャル試着用生成AI「IDM-VTON」は、その名のとおり、人物モデルと服装の2枚の画像を用意するだけでバーチャル試着体験ができるAIです。画像を選んでアップロードするだけなので、難しいプロンプト入力などは必要ありません。

なお、上記の画像は、モデルに着せている衣服に一貫性があることを示しています。トップスのデザインをすべて同一にできているので、それぞれの比較が容易です。

自分が実際に試着することなく、その服装が似合うかどうかを判断できるので、オンラインショッピングが主流になりつつある現代にピッタリの技術といえますね！

IDM-VTONを構成する3つのパーツ

IDM-VTONは、以下3つのパーツが構成しています。

人物画像を生成する「TryonNet」
衣服の重要な特徴を反映する「IP-Adapter」
衣服のその他特徴を反映する「GarmentNet」

これら3つのパーツがそれぞれ補完し合うことで、バーチャル試着体験を可能にしているというわけです。

以下でそれぞれのパーツの役割を詳しく解説していくので、仕組みが気になる方はぜひ参考にしてみてください。

人物画像を生成する「TryonNet」

「TryonNet」は、人物画像を処理するメインのUNetです。人物画像の潜在変数のノイズ潜在変数をセグメンテーションマスク・マスク画像・Denseposeに連結させています。

また、この後紹介する「IP-Adapter」から衣服に関する情報を受け取っているのも特徴。衣服のその他特徴を反映する「GarmentNet」からも情報を受け取り、最終的な生成画像に特徴を反映させているのも「TryonNet」です。

複数の役割があり理解が難しいところですが、結局のところIDM-VTONの機能をメインで支えているのが「TryonNet」だということだけは覚えておいてください。

衣服の重要な特徴を反映する「IP-Adapter」

「IP-Adapter」は、衣服の重要な特徴を反映するための画像プロンプトアダプタです。衣服に関するプロンプトを処理したあと、「TryonNet」にその特徴を情報として伝える役割を担っています。

また、ユーザーの体の姿勢を正確に予測し、その姿勢に合わせて服の画像を調整する役割があるのもポイント。衣服の細かな特徴や後術する「GarmentNet」の役割ですが、衣服の特徴をメインで形作っているのは「IP-Adapter」です。

衣服のその他特徴を反映する「GarmentNet」

「GarmentNet」は、「IP-Adapter」の対応範囲外にあたる、衣服の細かな特徴を反映しているネットワークです。服のシワや影を自然な見た目にするなど、本当に細かい部分の調整を担当しています。

なお、「GarmentNet」で衣服の特徴を反映したあとは、「TryonNet」にその特徴を伝えているのがポイント。この工程を経て、最終的に生成画像を出力しています。

なお、大規模言語モデル（LLM）の仕組みについて詳しく知りたい方は、下記の記事を合わせてご確認ください。

WEEL

大規模言語モデル（LLM）とは？仕組みや代表例、サービス、できることを徹底解説 | WEEL 大規模言語モデルの基本情報や仕組みを初心者の方でも理解できるように紹介しています。ほかにも、大規模言語モデルを使用する際の問題点や活用方法についてわかりやすく解…

IDM-VTONの従来比ですごいところ

IDM-VTONの従来比ですごいところは、画像の忠実度と信頼性が大幅に向上している点です。従来モデルとの違いがわかりやすいよう、公式ページでも4つの組み合わせで生成画像を比較していました。

上記画像を見ればわかるとおり、従来モデルは人物の特徴は反映できているものの、衣服の特徴が反映できていないものがほとんどです。1番左の「HR-VITON」においては画像がぼやけてしまっています。

一方、IDM-VTONは人物モデル・衣服の両方をほぼ正確に反映できているといっても過言ではありません。

従来モデルは高い忠実度と細部の保存の両方を達成するのに苦労していましたが、IDM-VTON は衣服と人物の両方の画像に詳細なテキストプロンプトを提供することで、生成画像の完成度を高めています。

なお、生成AIに対する効果的なプロンプトを詳しく知りたい方は、下記の記事を合わせてお読みください。

WEEL

ChatGPTのプロンプトエンジニアリングとは？プロンプト例21選と記述のコツ・FAQを紹介 | WEEL 当記事では生成AIに適切な命令を与えるための方法論「プロンプトエンジニアリング」を紹介。その具体的な手法についても、ChatGPT上で実践しつつ解説しております。LLM（大…

IDM-VTONのライセンス・料金体系

IDM-VTONのライセンスは「CC BY-NC-SA 4.0 license.」に基づいて提供されています。

「IDM-VTONのライセンス」とは、直訳すると「表示 – 非営利 – 継承」という意味で、商業的な利益を伴わない学術研究および実用的な説明目的のためのみ使用してよいということです。※1

つまり、IDM-VTONは現状商業目的で使用することは許可されていません。

なお、IDM-VTONは現状、無料と有料2つの料金プランが存在するので、予算や機能を考慮して好きなほうを選べます。

以下にそれぞれの料金プランの違いをまとめました。

プラン	Free	Advanced
料金	無料	19ドル/月
特典	バーチャル試着体験 4モデル全身	無制限の使用 Outfit Anyoneのフル機能フェイススワップ高品質高い正確性独自のモデルをアップロードする背景の交換衣服に対する要求が低いスーツに最適全身

バーチャル試着体験だけなら無料プランで十分できますが、有料プランはさらに高品質で画像を生成できたり、便利な機能を多数搭載していたりします。

まずは無料プランで使い勝手を確認し、気に入ったら有料プランに切り替えるのがおすすめです。

IDM-VTONを使ってバーチャル試着してみた！

筆者も実際にIDM-VTONを使ってバーチャル試着を試してみたので、使い方を共有していきます。

使用手順は以下のとおりです。

衣服の選択
人物写真のアップロード
試着画像の生成

なお、無料版なら、登録不要かつPlaygroundで手軽に試せるのでおすすめです。

以下でさまざまな組み合わせで試した結果を共有するので、ぜひ参考にしてみてください。

操作1.衣服の選択

まずは衣服を選択します。衣服の選択は画面真ん中の「Garment」の下にある選択肢から選びました。

選択後は以下の画像のように表示されます。

画像の下にはプロンプトの入力欄もあるので、プロンプトで服装の特徴を指定することも可能です。

操作2.人物写真のアップロード

次に、人物の画像をアップロードします。アップロードする際は、画面左側の真ん中にあるアップロードボタンを押してください。

なお、人物の画像をアップロードするのが面倒な方は、下にある選択肢から選んでアップロードすることもできます。

筆者がExamplesの1番左に配置されている女性を選択しました。

操作3.試着画像の生成

最後に試着画像の生成を実行します。下にスクロールすると「Try-on」というボタンが出てくるので、クリックして画像の生成を開始してください。

ボタンを押してしばらくすると、以下のように人物画像と衣服の画像を組み合わせた画像が生成されました。

画像が縦に長かった関係で2枚に分けていますが、確かに人物画像と衣服の特徴が合致していることがわかります。

ここまでは基本的な使い方を試したので、以下からは少し実験してみたものを共有していきます。

実験1.着物の試着

今後は着物を衣服の画像としてアップロードしてみました。生成されたのが以下の画像です。

正直なところ、着物は人物モデルにあまりフィットしておらず、不自然な見た目になってしまいました。トップスとボトムスに分かれていない着物だと、人物モデルの特徴に合わせるのが難しかったのかもしれません。

このあたりは今後の課題ですね。

実験2.アニメ系画像を使った試着

次は、アニメ系画像を使ってバーチャル試着を体験してみます。

ちなみに、上記でアップロードしているアニメ系画像は、「Stable Diffusion WebUI」を使って生成AIで作成しました。

参考：https://stablediffusionweb.com/ja/WebUI

実際に生成してできた試着画像が以下のとおりです。

首元に選んだ衣服画像の一部が反映されていますが、それ以外は人物画像が元から着用していた衣服のままです。実験結果として、アニメ風の人物画像ではバーチャル試着ができないとわかりました。

ただ、今後アップデートされる過程で対応できるようになる可能性もあるので、バーチャル試着用生成AIの進化に期待しましょう。

なお、生成AIがファッション業界にもたらす影響について詳しく知りたい方は、下記の記事を合わせてご確認ください。

WEEL

生成AIがファッション業界を変える！メリットやリスク、実際のデザインをご紹介 | WEEL 生成AIファッションの活用が進み、トレンド予測や新しいデザイン提案、在庫最適化まで幅広い効果を発揮しています。実際の導入事例や最新ツール、導入時のリスクと対策まで…

IDM-VTONでバーチャル試着体験をしてみよう

IDM-VTONは、人物画像と衣服の画像をアップロードするだけで、手軽にバーチャル試着体験ができる便利な生成AIです。

バーチャル試着ができる仕組みとして、以下3つのパーツが重要な役割を担っています。

人物画像を生成する「TryonNet」
衣服の重要な特徴を反映する「IP-Adapter」
衣服のその他特徴を反映する「GarmentNet」

なお、IDM-VTONのライセンスは「CC BY-NC-SA 4.0 license.」に基づいて提供されているため、現段階では商用利用ができません。

ただ、プランは無料と有料の2種類があるので、研究目的で個人的に楽しむ分には無料で使えて便利です。

プラン	Free	Advanced
料金	無料	19ドル/月
特典	バーチャル試着体験 4モデル全身	無制限の使用 Outfit Anyoneのフル機能フェイススワップ高品質高い正確性独自のモデルをアップロードする背景の交換衣服に対する要求が低いスーツに最適全身

IDM-VTONの使い方自体は難しくなく、以下たったの3ステップでバーチャル試着体験が可能です。

衣服の選択
人物写真のアップロード
試着画像の生成

本記事で実施した着物やアニメ風画像での試着は対応していませんでしたが、現実的な画像であればある程度の組み合わせに対応しているので、ぜひ利用してみてください。

参考記事

※1：ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL

最後に

いかがだったでしょうか？

GPT-3.5 Turboの最新アップデートで、より高速かつ低コストでのAI活用が可能になりました。自社での導入・活用を検討する際に、最適なモデル選定や活用方法について、一緒に考えてみませんか？

弊社では

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ