マルチモーダルRAGとは?その特徴や活用事例を詳しく解説!
日々、AIの進化が加速する中で、昨今注目されているのがマルチモーダルRAGです。マルチモーダルRAGは、従来のRAGとは異なり、複数の情報入力に対応しており、さらにそれらを組み合わせて同時に分析し高精度な出力をすることができるアプローチです。
この記事では、マルチモーダルRAGの仕組みやメリット、活用事例などをご紹介します。ぜひ、最後までご覧ください!
マルチモーダルRAGとは
マルチモーダルRAGとは、複数のデータ形式を組み合わせて同時に分析し、より包括的な結論を導き出すことができる柔軟性のあるAIアプローチの1つです。
少し複雑なので、「マルチモーダル」と「RAG」に言葉を分解してみましょう。まず、マルチモーダルとは、複数のデータ形式(ドキュメント・画像・動画・音声・表など)が混在している入力情報を指します。
そして、RAG(Retrieval-Augmented Generation)とは、検索拡張生成のことであり、LLMでは事足りないようなドキュメントや外部情報を取り込むことでハルシネーションを抑える効果があります。
一般的なRAGは、「シングルモーダル」とも呼ばれ、テキストベースの情報検索に焦点を当てていますが、現実世界では、テキスト以外の情報も多く存在するため、シングルモーダルでは回答生成に限界があります。
そこで、マルチモーダルRAGを活用することで、より広範な情報を検索し、回答生成することができるようになります!
以下はシングルモーダルRAGとマルチモーダルRAGのフロー図です。
シングルモーダルRAGは、テキストデータや画像などを個別に処理することしかできません。一方のマルチモーダルRAGは、複数の情報(モード)を組み合わせることで、より高度な回答を生成しています。私たち人間が持つ五感から情報を得る能力とよく似ていますね!
マルチモーダルRAGの仕組み
マルチモーダルRAGの概要について整理しましたが、仕組みについても見ていきましょう!
マルチモーダルRAGの処理フローは以下の通りです。
クエリの入力
クエリはテキスト、画像、音声など、複数の形式に対応しており、入力されたクエリは、適切な形式に変換され、モダリティ(データの種類)ごとに処理されます。
モダリティごとのエンコーディング
各モダリティに対応するエンコーダーを使用して、入力データを統一的な表現(ベクトル表現)に変換します。
- テキスト:自然言語処理モデル(例:BERT、GPTなど)
- 画像:コンピュータビジョンモデル(例:ResNet、CLIPなど)
- 音声:音声認識モデル(例:Wav2Vecなど)
情報の検索(Retriever)
統一されたベクトル表現を用いて、大規模データベースから関連情報を検索します。データベースにはテキスト、画像、音声、動画といった複数のモダリティ情報が含まれています。検索プロセスには、類似性検索(例:コサイン類似度)やANN(Approximate Nearest Neighbor)アルゴリズムを利用されます。
情報の統合
統合プロセスでは、各モダリティの情報を組み合わせ、最終的な応答生成に適した形に変換します。
応答生成(Generator)
統合された情報をもとに生成モデル(例:GPT、T5)が、ユーザーのクエリに対する応答を生成します。応答の形式は、テキストに限らず、画像生成(例:DALL·E)や音声生成(例:Tacotron)なども可能です。
たとえば、以下のように画像付きでクエリを入力すると、
「画像に写っている物の使い方を教えて」
画像をCLIPモデルでエンコードして特徴ベクトルが生成され、テキスト部分は言語モデルでエンコードされます。
そして、大規模データベースから、画像と類似するビジュアルデータや関連テキスト情報を検索し、取得したテキストデータと画像データを統合し、物体の使い方を説明するための情報に整理・変換され、最終的に、テキスト生成モデルで、物体の使い方を説明する文章が生成される。というようなイメージです。
マルチモーダルRAGのメリット
マルチモーダルRAGにより得られるメリットは大きく3つあります。
- 多種多様な情報形式が利用可能
- ユーザーの入出力のデータ形式が柔軟化
- 回答生成の高度化
- 異なるモダリティの情報を使用することで深い文脈理解・回答生成が可能
- 応用分野の多様化
- これまでの活用シーンのみに限らず、教育、ヘルスケア、Eコマースなど多分野で利用可能
従来のRAGとの違い
従来のRAGとマルチモーダルRAGにはいくつか違いがありますが、今回は3つの代表的な相違点をまとめます。
インデックスデータの違い
従来はテキストを暗号化してインデックスに保存していたのに対し、マルチモーダルRAGは、テキストと画像を暗号化して別のインデックスに保存する点が異なります。
生成モデルの違い
従来はGPT-4やGPT-3.5などのLLMだったのに対し、マルチモーダルRAGは、「GPT-4v」のようなマルチモーダルモデル(LLM)や、「LLaVA」のようなオープンソースの代替モデルを使用する点が異なります。
クエリの違い
従来はテキストのみ送信していたのに対し、マルチモーダルRAGは、画像とテキストの両方を含むクエリを送信する点が異なります。
私たちが扱う非構造化データは、高解像度の画像や、テキストが含まれる表、グラフ、図などが混在した PDFのように、複数のモダリティにまたがって散らばっていることがよくあるため、こういったシーンにマルチモーダルRAGが活躍してくれそうですね!
マルチモーダルRAGの活用事例
すでに様々な分野・業界で導入されているマルチモーダルAIですが、ここで活用事例を紹介します。
【化学】日本ゼオン株式会社
日本ゼオン株式会社は、産業技術総合研究所や先端素材高速開発技術研究組合と共同で、複数のAIを活用したマルチモーダルAI技術を開発しました。※1
この技術は、画像や分光スペクトルなど異なる種類のデータを統合し、複雑な材料の特性を高速かつ高精度に予測するもので、材料開発の時間短縮と高度化が期待されています。
【ヘルスケア】NEC×理化学研究所×日本医科大学
NEC、理化学研究所、日本医科大学は、複数の大学病院と共同で、電子カルテとAI技術を融合し、前立腺がんの再発予測に関するマルチモーダルAIを構築しました。※2
このAIは、手術前の電子カルテデータや病理生検画像など複数の検査データを同時に解析し、再発予測の精度を約10%向上させることに成功しているようです。これにより、治療計画の最適化や疾患の早期発見が期待されています。
【自動運転技術】Turing株式会社 完全自動運転システム
Turing株式会社は、マルチモーダルAIを活用した完全自動運転システムの開発に取り組んでおり、テキスト、映像、センサーデータなど複数のデータを統合して高度な判断を行うマルチモーダル生成AI「Heron」を開発し、2030年までにハンドルのない自動運転車の実現を目指しています。 ※3
また、専用計算基盤「Gaggle Cluster」や生成世界モデル「Terra」などの独自技術の研究開発も推進しています。
これらの技術により、現実世界の複雑な状況を高度に理解し、リアルタイムでの環境変化予測が可能となることが期待されています。
【防犯】株式会社NTTデータ
NTTデータは、マルチモーダルAI技術を活用し、防犯カメラの映像と音声データを組み合わせた高度な行動認識システムを開発しています。※4
従来の映像解析AIでは検出が難しかった「集団で騒がしくたむろしている」といった音声を伴う迷惑行為も、この技術により検出可能になるようです。これにより、監視業務の支援範囲が広がり、防犯・セキュリティの高度化が期待されています。
マルチモーダルRAGを理解しよう!
従来のシングルモーダルRAGでは対処が難しかったタスクに対しても、マルチモーダルRAGであれば対応範囲が格段に広がっているのがお分かりいただけたかと思います。
すでに多くのマルチモーダルAIが開発されていますが、今後も増え続けることが予想されます。現状はまだまだ課題もありますが、研究・開発が進むにつれ精度も向上し、より利便性が増していくことでしょう。
今後もマルチモーダルAI・RAGの成長に注目していきましょう!
最後に
いかがだったでしょうか?
「マルチモーダルRAG」を導入することで、従来のRAGを超えた高度な情報処理と柔軟なデータ活用が可能に。次のビジネスステップを考える際のヒントに最適です!
株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです!
開発実績として、
・新規事業室での「リサーチ」「分析」「事業計画検討」を70%自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80%削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント
などの開発実績がございます。
まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。
セミナー内容や料金については、ご相談ください。
また、サービス紹介資料もご用意しておりますので、併せてご確認ください。