Meta「SAM3・SAM 3D」徹底解説!画像・動画・3Dを横断する次世代ビジョンAIの全貌

- SAM3は画像・動画を対象としたセグメンテーション・トラッキングモデル
- SAM 3Dは単一画像から物体・人体の3D構造を推定できる次世代ビジョンモデル
- 両モデルともPlaygroundとGitHubが提供されており、誰でもすぐに試せる環境が整っている
2025年11月、Metaから新たなモデルが登場!
今回リリースされた「SAM3・SAM 3D」で、SAM3は領域抽出、SAM 3Dは1枚の画像から「物体や人体を3Dとして再構築するモデル」です。
本記事ではSAM3・SAM 3D両者の概要や仕組み、実際の使い方について解説します。本記事を最後までお読みいただければ、SAM3・SAM 3Dの理解が深まります。
ぜひ最後までお読みください!
\生成AIを活用して業務プロセスを自動化/
SAM3・SAM 3Dの概要
SAM3とSAM 3Dは、Metaが開発したSegment Anythingシリーズの最新モデルであり、画像・動画・3D理解を扱う技術。両者は同じSegment Anythingに属していますが、目的と得意領域が大きく異なります。
SAM3の概要
SAM3は、テキスト・視覚プロンプト・例示画像など複数の指示形式に対応し、画像や動画内の対象物を精密に検出・分割・追跡できるモデルです。
特に、短いテキストを入力するだけで関連する物体を一括抽出できる「テキストプロンプト」や、画像内で同種の物体を指定して抽出する「Exemplar Prompts」などが特徴。

SAM 3Dの概要
SAM 3Dは、自然画像から物体や人物を3D構造として復元することに特化したモデルです。
提供されているモデルは2種類で、SAM 3D Objectsは単一の画像から、物体の形状・テクスチャ・空間的な配置を推定し、3Dモデルとして再構築。
SAM 3D Bodyは人体の3D姿勢や体形を推定するためのモデルで、姿勢が崩れている場合や一部が隠れている場合でも推定を行えます。
さらに、多数の実世界画像からメッシュを生成・評価する大規模なデータエンジンを構築し、約100万枚の画像に対して約314万のメッシュを生成したことが明かされています。※1
SAM3・SAM 3Dの仕組み
SAM3とSAM 3Dは、どちらも視覚情報を高度に処理するモデルです。しかし、その内部構造やアプローチは異なります。また、SAM3DはSAM 3D ObjectsとSAM 3D Bodyに分けられます。
SAM3の仕組み
SAM3は、言語・例示・視覚プロンプトを1つのモデルで扱う統合型アーキテクチャを採用。モデルは大きく「テキストエンコーダ」「画像エンコーダ」「検出モジュール」に分かれ、これらが連携して動作します。

短い語句やフレーズを受け取った場合には、テキストの意味内容を解釈したうえで、画像内のどの領域が該当するかを推定できるように内部表現へ変換します。
また、画像や動画を入力する際には、フレーム内の視覚的な特徴を抽出し、対象物の形状や位置関係を把握するための特徴量として整理。さらに、例として指定されたボックスや画像が与えられた場合には、その特徴を参考にしながら、同種の対象を探索できる状態に整えます。
この一連の流れにより、編集作業や分析タスクで必要となる対象領域を、安定した精度で抽出できる仕組みが作られています。
SAM 3D Objectsの仕組み
SAM 3D Objectsは、単一の画像から物体の形状や質感、空間的な配置を読み取り、3Dメッシュとして復元するために設計されたモデル。
SAM 3D Objectsは視覚情報を細かく分解しながら立体構造を導き出す多段階の推定プロセスがあります。

はじめに、画像全体を解析することで輪郭や表面の手触り、物体同士の位置関係などを特徴量として取り出します。こうした情報が整理されることで、モデルは物体の基本的な形を描き出すための土台を得られる仕組みです。
続いて、抽出された特徴を基に立体化の処理が進みます。物体の大まかな形状を形成したあと、表面の細部やテクスチャを重ねていくことで、視覚的な一貫性を備えた立体へと発展。
また、物体がどの向きに配置されているかといった姿勢の推定も並行して行われ、最終的には実物に近いメッシュが生成される構造になっています。

SAM 3D Body の仕組み
SAM 3D Bodyは、単一の画像から人体の立体構造を推定するために設計されたモデルです。姿勢が崩れている場合や身体の一部が隠れているケースでも推定を試みます。
モデルには、骨格と体の形状を分離して扱えるMeta Momentum Human Rig(MHR)が使用されており、人の体を理解するために機能しています。

MHRを使用することで、骨格の動きと外見的なシルエットをそれぞれ独立して扱えるようになり、構造の読み取りや編集を行いやすい形にできます。
推論の流れとしては、まず画像から得られる視覚情報をもとに、人体の主要な特徴を抽出。
その際、セグメンテーションマスクや2Dのキーポイントといった追加情報を組み合わせることで、ユーザーの意図に沿った形で予測を誘導できる構造になっています。複数の入力が揃うことで、関節の位置や身体の向きなどをより安定して推定でき、結果として自然な3Dモデルの生成につながります。

なお、Metaの次世代動画トラッキングAIであるCoTracker3について詳しく知りたい方は、下記の記事を合わせてご確認ください。

SAM3・SAM 3Dの特徴
SAM3とSAM 3Dは、Segment Anythingシリーズの中でも最新世代の技術として位置づけられており、それぞれが異なる特徴を持っています。
SAM3の特徴
SAM3は、画像や動画に写る対象を切り出したり追跡したりするための処理を幅広く扱えるモデルとして設計されており、従来のシリーズと比べても操作のしやすさや応用範囲が大きく広がっています。

各種の評価指標では、テキストを使った指示でも視覚的な指示でも高い性能が示されており、静止画だけでなく動画に対するマスク生成や追跡でも安定した精度を発揮。こうした特徴は、実務の場で必要となる処理の再現性を高めるうえで重要なポイントといえます。※2

SAM 3D Objects の特徴
SAM 3D Objectsは、単一の画像から物体の立体構造を自然な形で復元できる点が大きな特徴。
写っている物体の形状や質感、配置を手がかりに立体化を進めることで、実際の見た目に近いメッシュを得られるよう設計されています。小さな物体や一部が隠れているケースでも、画像中の手がかりや周囲の背景情報を組み合わせながら推定を行うため、安定した復元ができる仕組みです。
こうした特性を支えているのが、大規模なデータエンジンの存在。現実世界の3Dデータが不足しがちな問題を補うため、独自の方式で大量の学習データが整えられています。
さらに、複数の物体をまとめて扱える点も特徴のひとつです。画像内で対象を複数選択すると、それぞれに対してメッシュが生成されるため、密度の高いシーンであっても全体像を立体的に再構築できます。これにより、物体単体の復元だけでなく、空間全体の理解にも対応できる柔軟性が備わっています。
SAM 3D Body の特徴
SAM 3D Bodyは、姿勢が大きく崩れていたり、身体の一部が隠れていたりする状況でも推定を行える点が特徴。単一画像から自然な立体表現に近い人体モデルを生成できるよう設計されています。
極端なポーズや複雑な関節の向きにも対応しようとする仕組みが整えられており、日常的な動作から特殊な体勢まで幅広いケースを扱える柔軟性があります。

画像だけでなくセグメンテーションマスクや2Dキーポイントを追加の情報として組み合わせられる点も特徴です。
こうした補助的な情報を与えることで、モデルの振る舞いを利用者の意図に沿った方向へ誘導でき、より自然な姿勢や形状の生成につなげられます。複数の入力に対応できる構造によって、操作の自由度が高く、状況に応じた細やかな調整を行える点がSAM 3D Bodyの強みといえます。
SAM3・SAM 3Dの安全性・制約
SAM3に関する安全性と制約については、公式ページに記載がありませんでしたが、SAM 3Dには利用にあたって注意しておくべき点がいくつかあります。
SAM3Dの安全性・制約
SAM 3Dには、3D復元における限界がいくつか示されており、特に物体復元と人体復元の両面で注意すべき点があります。
まずSAM 3D Objectsでは、生成されるメッシュの解像度に一定の制約があり、細部まで精密に再現したい場合には限界が生じることがあります。
複雑な造形を持つ物体ほど細かな特徴が失われやすく、再現性に差が出る可能性が高いです。
また、物体間の物理的な関係性を推定する仕組みは備わっていません。シーンに複数の物体が存在する場合でも、それぞれを独立したものとして扱うため、接触や重なりといった関係性を考慮した推定は行われません。
SAM 3D Bodyにも特有の制約があります。姿勢や遮蔽にある程度対応できる一方で、どの程度の条件まで見極められるのかは明らかではなく、照明や画像品質など環境によって結果が変動する可能性があります。
さらに、人体を扱うためのMHR形式についても、どこまでの構造を表現できるのか、また構造上の制限がどのように働くのかが示されていないため、扱い方によっては意図しない結果につながる恐れもあります。
SAM3・SAM3Dの料金
SAM3・SAM3Dともに料金については公開されていません。
SAM3・SAM3Dのライセンス
SAM3・SAM3Dのライセンスについては公開されていません。
なお、Meta開発の音声入力だけで一瞬でAIアバターを作成できるAudio2Photorealについて詳しく知りたい方は、下記の記事を合わせてご確認ください。

SAM3・SAM3Dの使い方
SAM3・SAM3DともにPlaygroundが用意されています。

いずれもサンプル画像が用意されているので、サクッと使うことが可能。また、Metaのアカウントがなくても試しに使うことができるので、まずは使ってみたい、という方はぜひご利用ください。
SAM3・SAM3D活用事例
SAM3は、画像や動画を対象とした高速なセグメンテーションとトラッキングを実現するモデルであり、具体的な利用例としてMetaアプリ群で導入予定。
Instagramの動画編集アプリであるEditsでは、人物や物体を素早く切り出し、動画に効果を適用する用途が示されており、ユーザーがスマートフォン上で編集作業を行う際の効率化につながります。

SAM3・SAM3Dを実際に使ってみた
使い方の項目で画像を用いた例を提示したので、次は動画を使って実際にSAM3を使ってみます。
まずはSAM3です。今回はサッカーをプレイしている動画から特定の物体を抽出したいと思います。
最初にサッカーボールを抽出し、その後に特定の人物を抽出しましたが、特に特定の人物の抽出はスポーツ競技において、どのような動き方をしているのかなどの学びに活かせるのかなと感じました。
続いてSAM3Dです。SAM 3Dでは身体をスティックピクチャにしたいと思います。
実際の動きからスティックピクチャを作ることができるので、姿勢改善や動作フォームの確認、動きの分解などさまざまな領域で活用ができそうです。
なお、巨大モデル並みの知識容量を実現する小型モデルであるLlama 4 Scoutについて詳しく知りたい方は、下記の記事を合わせてご確認ください。

まとめ
本記事ではMetaが新たに発表したSAM3とSAM 3Dについて解説をしました。
SAM3は、画像や動画の中から対象を柔軟に切り出したり追跡したりでき、SAM 3Dは、1枚の画像から物体や人体を立体的に復元することができます。
いずれも使い道は多そうであり、使い方も簡単なので、ぜひ本記事を参考に皆さんも使ってみてください!
最後に
いかがだったでしょうか?
高精度セグメンテーションを実現するSAM3と、自然な立体表現を生成するSAM 3Dは、既存サービスのUX向上や新しい機能開発に大きく貢献します。導入メリットやPoCの可能性を、今すぐご相談ください。
株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです!
開発実績として、
・新規事業室での「リサーチ」「分析」「事業計画検討」を70%自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80%削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント
などの開発実績がございます。
生成AIを活用したプロダクト開発の支援内容は、以下のページでも詳しくご覧いただけます。
➡︎株式会社WEELのサービスを詳しく見る。
まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。
セミナー内容や料金については、ご相談ください。
また、サービス紹介資料もご用意しておりますので、併せてご確認ください。
