LMM(大規模マルチモーダルモデル)とは?特徴やできること、代表例を解説
とは?特徴やできること、代表例を解説.jpg)
LMM(大規模マルチモーダルモデル)によって、我々の生活は一変するかもしれません。
LMMはテキストや画像、音声などの複数種類の情報を処理できるAIモデルです。
LMMを搭載したAIは人間に近い思考・判断ができると考えられており、将来的には自動運転技術や産業用ロボットなども実現可能なのだとか。すごくないですか!?
というわけで今回は、LMMの特徴やLMMでできること、LMMの代表例などを詳しく解説します。
最後までご覧いただき、LMMに関する知見を深めてくださいね!
なお弊社では、生成AIの社内活用についての1時間無料相談を承っています。こちらからお気軽にご相談ください。
LMM(大規模マルチモーダルモデル)とは?
LMM(大規模マルチモーダルモデル)とは、「テキストや画像、動画など、複数種類の情報を処理できるAIモデル」を指します。
似たような言葉でLLM(大規模言語モデル)というものがありますが、こちらのモデルはテキストの処理・生成しかできません。
例えば、無料版ChatGPTに搭載されているGPT-3.5は、テキスト処理しかできないのでLLMに分類されますね。
一方LMMの場合、画像からテキストを生成したり、逆にテキストから動画を生成したりなど、種類の異なる情報も一緒に処理・生成が可能です。
処理できる情報の種類が増えたことで、LMMを搭載したAIはより人間に近い思考・判断ができるようになると期待されています。
LMM(大規模マルチモーダルモデル)にできること
LMM(大規模マルチモーダルモデル)にできることは下記のとおりです。
- テキスト・画像・動画・音声の双方向のやり取り
- AIの精度向上
- 高技能をスムーズに習得できる
- 人間に近い判断ができる
テキスト、画像、動画、音声の双方向のやり取り
LMMを用いれば、テキスト・画像・動画・音声の双方向のやり取りができます。
例えば、以下のようなタスクが実行可能です。
- 写真の情報をテキストで出力する
- 音声を自動的に文字起こしする
- 内容をテキストで入力して動画を作成する
- 画像から動画を生成する
上記のとおり、LMMを活用すればイラストの知識がない人でもイラストを描けるし、動画の知識がない人でも動画を制作できます。
つまりLMMによって、これまでは特別なスキルがないとできなかったことを、誰でも簡単にできるようになったのです。
AIの精度向上
LMMを導入することで、AIの精度が向上すると期待されています。
LMMはテキストや画像、音声などを処理するため、より多くの情報に触れられます。
触れる情報が多ければ、AIにインプットされる情報量も当然増え、結果的にAIの精度向上につながるのです。
以前までのAIは単一種類の情報にしか触れられなかったため、インプットできる情報量も限られており、その結果ハルシネーションを起こすことも多々ありました。
しかし、今後LMMの進化によってAIの精度が向上すれば、我々がAIを活用できるシーンも一気に増えるかもしれませんね。
高技能をスムーズに習得できる
LMMを導入することで、AIは高度な技能をスムーズに習得できます。
これまでの単一情報しか処理できないLLMは、対処できるタスクも限られていました。
例えば、無料版ChatGPTに搭載されているGPT-3.5の場合、テキストの処理・生成しかできません。
しかし、LMMであれば視覚や聴覚などさまざまな情報を取り込めるため、本来人間にしかできないような複雑なタスクにも取り組めるのです。
例えば自動運転などの超高度な技術も、今後LMMが進化すれば可能になると考えられています。
人間に近い判断ができる
LMMを導入することで、AIはより人間に近い思考・判断ができるようになります。
人間は物事をとらえるとき、五感(視覚・聴覚・嗅覚・触覚・味覚)で感じた情報を基に思考・判断しますよね?
これまでのLLMだと、処理できる情報の種類が限られていたため、どうしても人間と同じような思考・判断は難しいとされてきました。
しかしLMMの場合、視覚や聴覚などの情報も五感のように処理できるため、人間と似た思考・判断ができるようになるのです。
実際、国内でも視覚や触覚情報を基に作動するロボットがすでに開発されています。
現時点では、ロボットが人間と完全に同じ動きをするのはまだ難しいですが、技術が進化すれば将来的には可能になるでしょう。
なお、ChatGPTを内蔵したロボットの事例について詳しく知りたい方は、下記の記事を合わせてご確認ください。

代表的なLMM(大規模マルチモーダルモデル)
ここでは、現在世の中にあるLMM(大規模マルチモーダルモデル)の代表例を紹介します。
GPT-4
GPT-4はOpenAI社が開発したLMMで、ChatGPTなどのAIツールに搭載されています。
元々GPT-4は、テキスト処理しかできないLLMでした。
しかしOpenAI社が2023年9月、最新モデルの「GPT-4V」を発表し、画像解析機能と音声出力機能が追加されたのです。
例えば、ChatGPT上に画像をアップロードして、「これはなんですか?」と質問すると…
このように画像の内容をテキストで出力してくれます。
これは言うなれば、ChatGPTに目と声が実装されたようなものですね!
さらにChatGPTでは、画像生成AIの「DALL-E 3」が使えるようになり、テキストから高品質な画像が簡単に生成できるようになりました。
今後さらにLMMが進化することで、ChatGPTはますます便利なツールになるかもしれませんね!
Bard
Bardは、Google社が開発した対話型のLMMです。
BardもGPT-4と同様に、元々はテキスト処理に特化したLLMでした。
しかし、2023年9月に大幅なアップデートが行われ、Googleレンズによる画像認識が可能になったのです。
例えば、写真をアップロードして「これはどういう写真ですか?」と入力すると…
このように、画像の内容をテキストで出力してくれるのです。
さらにBardでは、「Bard Extensions」によるGmailやドライブとの連携、ハルシネーションチェックも可能になりました。
Bardは誰でも無料で利用できるサービスなので、興味のある方はぜひお試しください!
なお、Bardについて詳しく知りたい方は、下記の記事も合わせてご確認ください。

SeamlessM4T
SeamlessM4Tは、FacebookでおなじみのMeta社が開発した翻訳LMMです。
SeamlessM4Tを使うことで、下記のようなタスクを実行できます。
- 音声から音声への翻訳(Speech-to-speech translation )
- テキストから音声への翻訳(Speech-to-text translation)
- テキストからテキストへの翻訳(Text-to-text translation)
- 自動音声認識 (Automatic Speech recognition)
例えば、「おはよう」と音声入力して英語に翻訳すると、「Good Morning」というテキストと音声が一緒に出力されます。
ちなみに、SeamlessM4Tに対応している言語数は下記のとおりです。
タスク | 対応言語数 |
---|---|
音声入力 | 101 |
音声出力 | 35 |
テキスト入力/出力 | 96 |
これだけの言語に対応していれば、今後は日本語だけで世界中どこでも生活していけるかもしれませんね!
SeamlessM4Tについて詳しく知りたい方は、下記の記事も合わせてご確認ください。

NExT-GPT
NExT-GPTは、テキスト・画像・動画・音声すべてに対応しているLMMです。
具体的な使い方として、例えばNExT-GPT上で「犬が笑っている動画を生成できますか?」と入力すると…
このように若干精度に問題はあるものの、あっという間に動画を作成してくれます。
他にもテキストから画像を生成したり、動画からテキストを生成したりなど、多種多様なタスクに対応可能です。
現時点でNExT-GPTはデモ版しか公開されていませんが、誰でも利用できるのでぜひ試してみてください!
なお、NExT-GPTについて詳しく知りたい方は、下記の記事も合わせてご確認ください。
が登場.jpg)
CoDi
CoDiはMicrosoft社が開発したLMMです。
CoDiの大きな特徴は、「1つのプロンプトからテキスト・画像・動画・音声を同時に生成できる」という点。
例えば、CoDi上で「美しい森の中を歩いていると、自然と鳥の音が広がっています。」とプロンプトを入力すると…
このように、音声と動画を同時に生成してくれます。
まだ若干精度に課題があるものの、たった1つのプロンプトで複数のタスクを実行してくれるのは非常に便利ですよね!
CoDiについて詳しく知りたい方は、下記の記事も合わせてご確認ください。

CogVLM
CogVLMは、画像の認識・言語化が可能なLMMです。
その精度は非常に高く、一説によるとGPT-4Vを超えているのだとか。
例えば、CogVLM上に画像をアップロードし、「この画像を説明してください」とプロンプトを入力すると…
このように、画像の内容をテキストで出力してくれるのです。
今後CogVLMの精度がさらに上がれば、難易度が超高いことで有名なサイゼリヤの間違い探しなんかも、一瞬でできるようになるかもしれませんね。
CogVLMについて詳しく知りたい方は、下記の記事も合わせてご確認ください。

マルチモーダルAIの将来性
LMM(大規模マルチモーダルモデル)が今後進化し続ければ、AIは人間の五感と遜色ない働きができるようになるでしょう。
そうなると、我々の生活は間違いなく大きく変化します。
例えば自動車にLMMを搭載すれば、周囲の交通状況を視覚・聴覚で適切に判別できるので、自動運転技術も可能になるかもしれません。
また、視覚・触覚情報を基に作業を行うロボットが開発され、人手不足が叫ばれる産業分野の救世主になるかもしれません。

【無料】2023年11月版|生成系AIの業務活用なら!
・生成系AIを活用したPoC開発
・生成系AIの業務活用コンサルティング
・システム間API連携

生成系AIの業務活用なら!
・生成系AIを活用したPoC開発
・生成系AIのコンサルティング
・システム間API連携
まとめ
以下、本記事のまとめになります。
- LMM(大規模マルチモーダルモデル)とは、「テキストや画像、動画など、複数種類の情報を処理できるAIモデル」を指します。
- LMMによって、「テキスト・画像・動画・音声の双方向のやり取り」「AIの精度向上」「高技能のスムーズな習得」「人間に近い判断」が可能になる。
- LMMの代表例として、「GPT-4」「Bard」「SeamlessM4T」「NExT-GPT」「CoDi」「CogVLM」などが挙げられる。
- LMMが今後進化し続けると、AIは人間の五感と遜色ない働きができるようになると考えられる。そうなると、将来的には自動運転技術や産業用ロボットの開発も実現するかもしれない。
LMM(大規模マルチモーダルモデル)が進化すれば、我々人類の生活は間違いなく一変します。
今後のLMM研究・開発の動向から、ますます目が離せませんね!
最後に
いかがだったでしょうか?
弊社では
・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発
などの開発実績がございます。
まずは、「1時間の無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。
セミナー内容や料金については、ご相談ください。
また、弊社紹介資料もご用意しておりますので、併せてご確認ください。