【ERNIE 5.0】2.4兆パラメータを備えた世界初のオムニモーダルLLM!性能・使い方・ライセンスを徹底解説

- 中国の大手テクノロジー企業Baidu発の新たな大規模言語モデル
- 2.4兆パラメータを備え、テキスト・画像・音声・動画などのあらゆるデータを扱うオムニモーダルAI
- LLM競技評価「LMArena」のテキスト部門で、GPT-4.5やClaude Opus 4.1などと同等の性能を誇る
2025年11月13日、中国のテック大手Baiduは、自社の年次イベント「Baidu World 2025」において、新世代の大規模AIモデル「ERNIE 5.0」を正式発表しました!
ERNIEシリーズの最新モデルであるERNIE 5.0は、なんと2.4兆という途方もないパラメータ数を備え、テキスト・画像・音声・動画といったあらゆるデータを扱える「ネイティブオムニモーダル」AIモデルとして注目を集めています。
このモデルは、従来の単一モーダル(テキストのみ等)なアプローチを超え、人間のように同時に「見て・聞いて・理解する」能力を追求して開発されました。
Baidu創業者の李彦宏(Robin Li)氏も「ERNIE 5.0は単なるマルチモーダルの寄せ集めではなく、各モーダルが真に融合した統合AIモデルだ」と強調しており、その登場はAI業界における大きな一歩と位置付けられています。
本記事では、このERNIE 5.0について、概要や性能、ライセンスや料金体系、実際の使い方まで、詳しく解説します。
ぜひ最後までご覧ください。
\生成AIを活用して業務プロセスを自動化/
ERNIE 5.0の概要

ERNIE 5.0は、Baiduが開発した大規模言語モデルシリーズ「ERNIE」の最新バージョンで、世界初の「ネイティブオムニモーダル」大規模モデルと位置付けられています。
ネイティブオムニモーダルとは、テキスト・画像・音声・動画といった複数モーダルのデータを最初から単一の統一モデルで共同学習していることを意味します。
従来は、画像認識モデル+言語モデルを組み合わせるような段階的な処理が一般的でしたが、ERNIE 5.0では、視覚・聴覚と言語の理解がアーキテクチャレベルで融合しており、人間が複雑なマルチモーダル情報を同時に捉えるように自然に対処することができます。
例えば、「写真に写る人々の感情変化を描写する」や「メロディに合った詩を生成する」といった高度なクロスモーダル課題もスムーズにこなせるようなイメージです。
さらにパラメータ数も驚異的で2.4兆以上にも及びます。
これは、GPT-4などのモデルを圧倒するスケールで、モデルの巨大さを活かした高い表現力と知識保持能力が期待できます。
一方で、ERNIE 5.0は単に大きいだけでなく、Mixture-of-Experts(MoE)と呼ばれる超大規模モデル技術を採用していて、推論時には、必要な専門知識部分のみを活性化させることで効率良く動作します。
Baiduによると、このMoEアーキテクチャにより推論性能が2倍に向上し、コストが半減したとされています。つまり2.4兆ものパラメータを持ちながらも、実運用での応答速度やコスト面では実用的な最適化が図られている点が特徴です。
ERNIE 5.0の性能

公式ベンチマーク結果によると、ERNIE 5.0(Preview版)は、言語理解・視覚(画像)理解・音声理解・画像生成といった複数の面でハイスコアを記録しています。
公開直前に行われた大規模モデルの競技評価「LMArena」のテキスト部門(Text Arena)では、ERNIE 5.0-Preview(10月時点のプロトタイプ版)が総合スコア1,432点を獲得し、GPT-4.5やClaude Opus 4.1などと並んで世界第2位、国内第1位にランクインする快挙を達成しました。
この結果は、創造的文章生成や高度な長文理解、指示への応答精度などあらゆる面でERNIE 5.0が、現行モデルの最先端に食い込んでいることを示しています。
LMArena上でPreview版を試したユーザーからも、「GPT-4に迫る出来だ」「現時点で中国勢トップのモデル」といった高評価のコメントが相次いでいたようです。
なお、Claude Opus 4.1について詳しく知りたい方は、以下の記事も参考にしてみてください。

ERNIE 5.0のライセンス
ERNIE 5.0のライセンスや利用条件について、2025年11月現在、公式から詳細な情報は多く公開されていません。
ERNIE 5.0は、Baiduのプロプライエタリ(独自商用)モデルとして提供されており、モデルそのもの(学習済みパラメータ)の公開はまだ行われていない状況です。
ただし、前世代モデルのERNIE 4.5では、10種類の派生モデルがApache 2.0ライセンスで公開され、商用利用や再配布が可能となっていたので、ERNIE 5.0についても将来的に一部モデルや簡易版がオープンソース化される可能性は考えられますが現時点で公式発表はありません。
| 利用用途 | 可否 | 備考 |
|---|---|---|
| 商用利用 | ⭕️ | |
| 改変 | ❌️ | |
| 配布 | ❌️ | |
| 特許使用 | ❌️ | |
| 私的使用 | ⭕️ |
ERNIE 5.0の料金
ERNIE 5.0の利用料金体系は、大きく個人ユーザー向け(エンドユーザー向け)と企業・開発者向け(API利用)に分かれています。
Baiduは、2025年4月より自社の対話AIサービス「ERNIE Bot」を完全無料化する戦略転換を行いました。
そのため、一般ユーザーはデスクトップ版・モバイル版を問わず、ERNIE 5.0を搭載したチャットサービスを無料で利用できます。
一方で、企業や開発者が自社アプリやシステムにERNIE 5.0の機能を組み込む場合は、BaiduのAIクラウド「千帆大模型プラットフォーム」経由でAPIを呼び出す必要があり、このAPI利用はトークン課金制となっています
| 利用方法 | 料金 |
|---|---|
| 個人ユーザー向け | 無料(全ユーザーに無料開放) |
| API利用 | 従量課金制(例:ERNIE 4.5では入力0.004元/千トークン・出力0.016元/千トークン。ERNIE 5.0でも同程度の低価格で提供される想定) |
なお、ERNIE-4.5-VL-28B-A3B-Thinkingについて詳しく知りたい方は、以下の記事も参考にしてみてください。

ERNIE 5.0の使い方
ERNIE 5.0の使い方は、チャットUIとAPI経由の2つの方法があります。
チャットUI
まず手っ取り早く試したい場合は、Baiduの公式チャットボットサービス「ERNIE Bot」を使う方法です。
ERNIE Botは、Webサイト版とスマートフォン向けアプリ版があり、ERNIE 5.0のリリースに伴いPreview版が統合されています。
ERNIE Botにアクセスし、アカウント登録が完了すると、以下のような画面が表示されますので、左上のモデルピッカーから「ERNIE 5.0 Preview」を選択することで利用可能です。

API
続いて、API利用手順を紹介します。
こちらはBaiduのクラウドサービスでBaidu AI Cloud Qianfanにアクセスし、API経由でモデルを呼び出す形になります。
①Baidu AI Cloudへの登録
Baidu Cloudアカウントを作成し、プラットフォームのコンソールにログインします。
②モデルのAPI有効化
プラットフォーム上で、ERNIE 5.0(現在はPreview版)のAPIサービスを有効にします。Baiduはプラットフォームにおいて「ワンクリックで大モデルを呼び出せる環境」を提供しており、専用のアプリケーションIDやAPIキーを取得することで準備が完了します。
③APIの利用
取得したAPIキーを用いて、REST APIもしくは提供されているSDK(Python向けSDKなど)からERNIE 5.0にリクエストを送信します。
例えば、Python開発であれば、requestsライブラリでHTTP POSTリクエストを組み立てて、入力テキストや画像データ(Base64エンコードしたもの)を送信することで推論結果を受け取ることができます。
ERNIE 5.0は、マルチモーダル入力に対応しているため、APIもテキストフィールドに加えて画像や音声、動画ファイルを受け付けるエンドポイントが用意されています。
④応答の処理
APIから返ってきた推論結果(JSON形式でテキストや画像の生成結果が含まれる)を自分のアプリケーションで利用します。
以上、ERNIE 5.0の使い方の紹介でした。
ERNIE 5.0を使ってみた
それでは実際にERNIE 5.0をチャットUIで試してみましょう。
チャット欄の+マークを押すと、画像や音声、動画なども添付できることがわかります。

以下の記事で生成した「虎が歩いている動画」を使ってみます。

プロンプトはこちら
What's happening in this video? Organize it using the 5W1H framework.Please respond in Japanese.
(この動画で何が起きている?5W1Hで整理して。日本語で回答して。)
結果はこちら
承知いたしました。この動画について、5W1Hのフレームワークを用いて説明します。
Who (誰が): 1頭のトラ
What (何を): 草原を歩いている。歩くにつれて、足元から砂塵をあげている。
Where (どこで): 背の高い草が生えたサバンナのような場所。夕方か朝方の、太陽が低い位置にある光景。
When (いつ): 夕方か朝方
Why (なぜ): 獲物を探しているのか、縄張りをパトロールしているのか、あるいは単に移動しているのかもしれません。詳細は不明ですが、野生のトラの自然な行動の一場面です。
How (どのように): ゆっくりと、雄大に歩いている。
いいですね。ちゃんと動画を参照して指示通りのフレームワークで回答してくれました。
ちなみに、以下の通り思考プロセスを確認することもできます。

では、続いて動画と音声を同時に渡してみましょう。動画は先程のものと同じもの、音声は以下の記事で生成したものを使います。

プロンプトはこちら
Is this audio used in this video? Please answer in Japanese.
(この動画でこの音声は使われてる?日本語で回答して。)結果はこちら

音声データは読み取ってくれませんでした。念のため「ERNIE 5.0 Preview 1022」でも確認しましたが、同じような結果になりました。
無料版だから精度が低いのかわかりませんが、「オムニモーダルと言えるかは正直微妙」というのが今回の検証結果でした。
気になる方は、ぜひ一度ご自身のタスクで試してみてください。
まとめ
ERNIE 5.0は、Baiduの次世代の大規模AIモデルとして、その性能に注目が集まっています。
ネイティブ全モーダルというコンセプトで、テキスト・画像・音声・動画に対応し、人間のようにマルチな情報を統合的に理解・生成できる点は革新的ですね。
さらに、2.4兆パラメータの超巨大モデルでありながら、MoE技術で効率化することで実用的なスピードとコストを両立している点も魅力的です。
気になる方は、ぜひ一度試してみてください。
最後に
いかがだったでしょうか?
弊社では、AI導入を検討中の企業向けに、業務効率化や新しい価値創出を支援する情報提供・導入支援を行っています。最新のAIを活用し、効率的な業務改善や高度な分析が可能です。
株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです!
開発実績として、
・新規事業室での「リサーチ」「分析」「事業計画検討」を70%自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80%削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント
などの開発実績がございます。
生成AIを活用したプロダクト開発の支援内容は、以下のページでも詳しくご覧いただけます。
➡︎株式会社WEELのサービスを詳しく見る。
まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。
セミナー内容や料金については、ご相談ください。
また、大規模言語モデル(LLM)を対象に、言語理解能力、生成能力、応答速度の各側面について比較・検証した資料も配布しております。この機会にぜひご活用ください。
