【Depth Anything】画像内の距離感を正確に理解できるAIにトリックアートを読ませてみた

オープンソースAI その他画像生成生成AIずかん

2024-01-282024-10-31

WEELメディア事業部LLMリサーチャーの中田です。

1月20日、画像や動画を入力するだけで簡単に単眼深度推定ができる「Depth Anything」を、TikTokが提案しました。

この手法を用いることで、画像の深度を推定し、オブジェクトとカメラとの間の距離を推定できるんです、、、！

Xでのいいね数は、すでに1800を超えており、多くの人から注目されています。

この記事ではDepth Anythingの使い方や、有効性の検証まで行います。本記事を熟読することで、Depth Anythingの凄さを実感し、次に出てくる技術と統合することで、さらなる相乗効果を見込めるでしょう。

ぜひ、最後までご覧ください。

＼生成AIを活用して業務プロセスを自動化／

【無料】専門家に相談する

Depth Anythingの概要

Depth Anythingは、TikTokによって公開された「画像の単眼深度推定ができるAI」です。

単眼深度推定とは、1枚の画像からシーンの深度情報を予測するコンピュータビジョンのタスクです。言い換えれば、単一のカメラの視点から、画像内のオブジェクトの距離を推定すること。

例えば、以下の画像のように、カメラから遠いオブジェクトの色は薄く、近いオブジェクトは濃く表示されています。

単眼深度推定は、3D生成、AR、自律走行、ロボット工学など様々な用途があります。

また、Depth Anythingでは、画像だけでなく、以下の様に動画の深度推定も可能です。

なお、省エネで高解像度の画像生成AIについて知りたい方はこちらの記事をご覧ください。
→【Stable Diffusion WebUI Forge】省エネ・高速・高解像度の画像生成モデルを使ってみた

Depth Anythingの料金体系

Depth Anythingはオープンソースであるため、誰でも無料で利用可能です。

＼画像生成AIを商用利用する際はライセンスを確認しましょう／

Depth Anythingの使い方

今回はGoogle ColabのT4を用いて、実行していきます。

まず、以下のコードを実行して、必要なライブラリをインストールしましょう。

!git clone https://github.com/LiheYoung/Depth-Anything
%cd Depth-Anything
!pip install -r requirements.txt

次に、「Depth-Anythin」フォルダの直下に「checkpoints」というフォルダを作成し、以下のページから、事前学習済みのチェックポイントをダウンロードしましょう。

参考記事：Depth-Anything/checkpoints

ダウンロードしたものは、checkpointsフォルダの直下に置いてください。

次に、以下のコードフォーマットに従って、コードを実行することで、推定した深度を取得できます。

!python run.py --encoder <vits | vitb | vitl> --load-from <pretrained-model> --img-path <img-directory | single-img | txt-file> --outdir <outdir> --localhub

また、以下のHuggingFaceのデモページでも、手軽に試すことができます。

参考記事：Depth Anything

Depth Anythingを動かすのに必要なPCのスペック

■Pythonのバージョン
Python 3.8以上

■必要なパッケージ
gradio_imageslider
gradio==4.14.0
torch
torchvision
opencv-python

なお、アニメ画像の作り方について詳しく知りたい方は、下記の記事を合わせてご確認ください。
→【Animagine XL 3.0】誰でも一瞬でアニメ美少女の画像を作れる画像生成AIの使い方10選

Depth Anythingにトリックアートで騙し合いをしてみた

奥行きに関するトリック画像を入力し、どのような出力を返すのか検証してみます。

まずは、以下の画像。

参考記事：できると錯覚するほど頑張っていると、錯覚が現実になる！

右の人が少し近いので、濃く映っているのが分かります。良い感じですね！

続いて、以下の画像。

参考記事：科学雑誌Newton（ニュートン）のFacebook

結果は、以下の通りです。

手前の丸の方が近いので、濃く映っています。実際の写真と遜色ないくらい、遠近が再現されていますね！

最後に、以下の画像。

参考記事：ポンゾ錯視

結果は、以下の通りです。

こちらも上手く、遠近が捉えられています。ただ、奥の木が消えていますね、、、

とはいえ、全体的に精度の高い深度推定ができているので、他の技術と組み合わせることでより高度な処理が可能になるでしょう。

まとめ

Depth Anythingは、TikTokによって公開された「画像の単眼深度推定ができるAI」です。

全体的に精度の高い深度推定ができているので、他の技術と組み合わせることでより高度な処理が可能になるでしょう。

数年後には、誰もがスパイのようなスキャンをできるようになっているのかもしれないですね。

今後はこのような技術が（というか今も）、自動運転のようなシステムに組み込まれることが予想されます。これにセンサー技術や自動制御、AIによる画像処理などを組み合わせれば、完全自動運転システムが出来上がるでしょう。

最後に

いかがだったでしょうか？

GPT-3.5 Turboの最新アップデートで、より高速かつ低コストでのAI活用が可能になりました。自社での導入・活用を検討する際に、最適なモデル選定や活用方法について、一緒に考えてみませんか？

弊社では

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ