Llama 4 Maverick登場!性能・使い方・GPT-4oとの比較まとめ

- 高性能・高効率・マルチモーダル対応
- Mixture-of-Expertsアーキテクチャ使用
- コンテキスト長は1M
2025年4月6日、Metaから新たなLLMがリリースされました。
今回リリースされた「Llama 4 Maverick」はマルチモーダル対応で、テキストと画像を同じTransformerモデルに入力することで、統一的な処理ができるよう設計されています。
Llama 4 MaverickはGPT-4oやGemini 2.0 Flashなどの性能を上回っており、非常に高性能なモデルです。
本記事では、Llama 4 Maverickの概要からベンチマーク、使い方まで解説します。本記事を最後まで読むことで、Llama 4 Maverickの理解が深まり、自身で実装ができるようになります。
ぜひ最後までお読みください!
Llama 4 Maverickの概要
Llama 4 MaverickはMetaが新たにリリースしたマルチモーダルモデル。
総パラメーター数は4000億でアーキテクチャはMixture-of-Expertsを使用しており、対応言語は12言語で日本語は公式発表ではまだ未対応になっています。
事前学習では200以上の言語で訓練がされていますが、公式にサポートを明言しているのは上記12言語のみ。また、その他の言語でも応答は可能ですが、性能は落ちます。
Experts数は128で推論とコーディングでは、DeepSeek V3に匹敵する性能をアクティブパラメーターの半分以下で達成しています。なお、Llama 4 Maverickのアクティブパラメーター数は170億です。

Llama 4 Maverickの性能
公式の発表ではLlama 4 Maverickの性能はGPT-4oやGemini 2.0 Flash、DeepSeek V3をも上回る結果です。

上記の結果を見ると多くのベンチマークでLlama 4 Maverickが優れていることがわかります。特にImage ReasoningであるMMMUとMathVistaにおいては、DeepSeek V3.1とGPT-4oを上回っており、マルチモーダルとしての性能が高いです。
他にもReasoning & KnowledgeであるMMLU ProとGPQA Diamondでは、MMLU ProではDeepSeek V3.1に劣るものの迫る水準であり、GPQA DiamondではDeepSeek V3.1をも上回ります。
コストに関しては$0.19~$0.49/100万トークンであり、これはGPT-40の1/10の価格でGemini 2.0 FlashやDeepSeek v3.1と同等のコストです。
コストは同等ですが、性能で言えばLlama 4 Maverickに軍配が上がっており、コストパフォーマンスに優れたモデルとも言えるでしょう。

また、Chatbot Arenaのoverallで2位を獲得。

特にコーディングではMeta公式発表しているベンチマークでは、DeepSeek V3.1が上回っていますが、ChatbotArenaで確認するとLlama 4 Maverickが1位を獲得しています。

Llama 4 Maverickの性能に関する疑惑
Llama 4 Maverickの性能は非常に高いことがわかりましたが、その一方で以下のような意見も散見されます。
Llama 4の性能が非常に高いのは、ベンチマークスコアで高得点を取ることを最優先して、モデルの学習や設計、評価を最適化する手法を取っているのでは?(=Benchmark maxxing)ということです。
Metaの公式には以下のように記載がされています。
Llama 4 Maverick offers a best-in-class performance to cost ratio with an experimental chat version scoring ELO of 1417 on LMArena.
The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation
つまり現在私たちが使用できるモデルとChatbot Arenaで使用されているモデルは若干異なっていて、Chatbot Arenaと同等の性能を私たちが体験できるかはわかりません。実際にLlama 4を使ったユーザーからは、絵文字を多用しており回答も非常に冗長であるとフィードバックがされています。
実際に使ってみて、Llama 4 Maverickとその他のモデルで比較してみることで性能の違いが見えてくるかもしれません。
Llama 4 Maverickのライセンス
Llama 4 MaverickのライセンスはLlama 4 Community Licenseです。商用利用は基本的に可能ですが、月間アクティブユーザーが7億人を超える場合には、Metaから個別のライセンス許可が必要です。
また、配布なども可能ですが、配布する場合には本ライセンスを併記する必要があります。一方で特許使用に関しては明言されていません。
利用用途 | 可否 |
---|---|
商用利用 | ⭕️ |
改変 | ⭕️ |
配布 | ⭕️ |
特許使用 | 不明 |
私的使用 | ⭕️ |
なお、Googleの思考するAIについて詳しく知りたい方は、下記の記事を合わせてご確認ください。

Llama 4 Maverickの使い方
Llama 4 MaverickはHugging Faceかllama公式からモデルをダウンロードして使用することができます。
どちらを使うにしても氏名や所属先などの入力は必要です。私はHugging Faceで申請をしましたが、30分程度で承認が下りました。

Llama 4 Maverickをgoogle colaboratoryで実装
実際にLlama 4 Maverickをgoogle colaboratoryで実装しようと思いましたが、Hugging Faceでファイルの中身を見てみるとトータルで700GB以上の空き容量が必要であり、google colaboratory Proでも実装が難しいです。
そのため、Spacesで実際に動かしてみたいと思います。
実際に動かしてみましたが、処理はだいぶ速いですね。ただこれがSpacesだからなのかLlama 4 Maverickの性能なのかは、判断が難しいかもしれません。
Llama 4 Maverickのコーディング性能をGPT-4oと比較検証
Llama 4 Maverickのコーディング能力はChatbot Arenaで1位を取っているので、2位のGPT-4oと比較をしてみたいと思います。作成してもらうのは、Flaskを使ったLPとデータ解析用のダッシュボードを作ってもらおうと思います。
Flaskを使ったLP開発
Llama 4 MaverickとGPT-4oに与えるプロンプトは以下です。
新しくtoC向けにスマートデバイス(MindSphere)を開発しました。MindSphereは、ユーザーの感情・集中力・ストレス状態をリアルタイムで可視化し、生活・仕事・学習の質を向上させるための脳波・生体データ連動型スマートデバイスです。スタイリッシュなヘッドバンド型で、耳にかける形で装着します。MindSphereを販売するためのLPをPythonで開発をしてください。
ただ、Llama 4 Maverickは日本語が非対応なので英語に翻訳してから実行します。
We have developed a new smart device (MindSphere) for the consumer market. MindSphere is a brainwave and biometric data-linked smart device that visualizes the user’s emotions, concentration, and stress levels in real time, and is designed to improve the quality of life, work, and study. It is a stylish headband-type device that is worn over the ears. Please develop a landing page in Python to sell MindSphere.
Llama 4 Maverickの結果はこちら
from flask import Flask, render_template, request, redirect, url_for
app = Flask(__name__)
# Sample product data
product_data = {
"name": "MindSphere",
"description": "A brainwave and biometric data-linked smart device that visualizes the user's emotions, concentration, and stress levels in real time.",
"features": [
"Visualize emotions, concentration, and stress levels in real time",
"Stylish headband-type design worn over the ears",
"Improve the quality of life, work, and study"
],
"price": 299.99,
"currency": "USD"
}
# Sample testimonial data
testimonials = [
{"name": "John Doe", "text": "MindSphere has helped me stay focused and calm during stressful situations."},
{"name": "Jane Smith", "text": "I've seen a significant improvement in my productivity since using MindSphere."}
]
# Sample order data
orders = []
@app.route("/")
def index():
return render_template("index.html", product_data=product_data, testimonials=testimonials)
@app.route("/order", methods=["POST"])
def order():
if request.method == "POST":
name = request.form["name"]
email = request.form["email"]
quantity = int(request.form["quantity"])
total_cost = quantity * product_data["price"]
orders.append({"name": name, "email": email, "quantity": quantity, "total_cost": total_cost})
return redirect(url_for("thankyou"))
@app.route("/thankyou")
def thankyou():
return render_template("thankyou.html")
if __name__ == "__main__":
app.run(debug=True)
templateはこちら
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title>MindSphere</title>
<link rel="stylesheet" href="https://maxcdn.bootstrapcdn.com/bootstrap/4.0.0/css/bootstrap.min.css">
</head>
<body>
<div class="container">
<h1>{{ product_data.name }}</h1>
<p>{{ product_data.description }}</p>
<h2>Features</h2>
<ul>
{% for feature in product_data.features %}
<li>{{ feature }}</li>
{% endfor %}
</ul>
<h2>Price: {{ product_data.price }} {{ product_data.currency }}</h2>
<form action="/order" method="post">
<div class="form-group">
<label for="name">Name:</label>
<input type="text" class="form-control" id="name" name="name" required>
</div>
<div class="form-group">
<label for="email">Email:</label>
<input type="email" class="form-control" id="email" name="email" required>
</div>
<div class="form-group">
<label for="quantity">Quantity:</label>
<input type="number" class="form-control" id="quantity" name="quantity" required>
</div>
<button type="submit" class="btn btn-primary">Order Now</button>
</form>
<h2>Testimonials</h2>
{% for testimonial in testimonials %}
<blockquote>
<p>{{ testimonial.text }}</p>
<footer>{{ testimonial.name }}</footer>
</blockquote>
{% endfor %}
</div>
</body>
</html>
別ページのHTMLファイルはこちら
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title>Thank You</title>
<link rel="stylesheet" href="https://maxcdn.bootstrapcdn.com/bootstrap/4.0.0/css/bootstrap.min.css">
</head>
<body>
<div class="container">
<h1>Thank You for Your Order!</h1>
<p>We will contact you soon to confirm your order.</p>
</div>
</body>
</html>
実際に作成されたものがこちら。

適切にエラーなく表示することができましたが、もう少し購買意欲を唆るようなLPが作られるかなと思っていましたが、そうでもなかったです。
GPT-4oの結果はこちら
from flask import Flask, render_template_string
app = Flask(__name__)
landing_page_html = """
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title>MindSphere - Enhance Your Mind</title>
<style>
body {
font-family: Arial, sans-serif;
margin: 0;
padding: 0;
background: #f9f9f9;
color: #333;
}
header {
background-color: #111;
color: #fff;
padding: 20px;
text-align: center;
}
.hero {
padding: 60px 20px;
text-align: center;
background: #e0f7fa;
}
.hero h1 {
font-size: 3em;
margin-bottom: 20px;
}
.hero p {
font-size: 1.2em;
max-width: 700px;
margin: 0 auto;
}
.features {
display: grid;
grid-template-columns: repeat(auto-fit, minmax(250px, 1fr));
gap: 20px;
padding: 40px 20px;
background: #fff;
}
.feature {
background: #f1f1f1;
padding: 20px;
border-radius: 10px;
}
.feature h3 {
margin-top: 0;
}
.cta {
text-align: center;
padding: 40px;
background: #00796b;
color: white;
}
.cta button {
background: #004d40;
color: white;
border: none;
padding: 15px 30px;
font-size: 1.1em;
border-radius: 8px;
cursor: pointer;
}
.cta button:hover {
background: #00332b;
}
footer {
text-align: center;
padding: 20px;
background: #111;
color: white;
}
</style>
</head>
<body>
<header>
<h1>MindSphere</h1>
<p>Elevate Your Mind</p>
</header>
<section class="hero">
<h1>Visualize Your Inner World</h1>
<p>MindSphere is a stylish, brainwave and biometric data-linked headband that gives real-time feedback on your emotions, focus, and stress — helping you improve your life, work, and study.</p>
</section>
<section class="features">
<div class="feature">
<h3>Real-Time Feedback</h3>
<p>Track your emotional state, concentration, and stress instantly with cutting-edge brainwave analysis.</p>
</div>
<div class="feature">
<h3>Stylish and Comfortable</h3>
<p>Ergonomically designed to fit comfortably over the ears and match any lifestyle.</p>
</div>
<div class="feature">
<h3>Enhance Productivity</h3>
<p>Use MindSphere during work or study sessions to optimize mental performance and reduce fatigue.</p>
</div>
<div class="feature">
<h3>Improve Well-Being</h3>
<p>Gain deeper insights into your stress patterns and emotional fluctuations to take better control of your health.</p>
</div>
</section>
<section class="cta">
<h2>Experience the Future of Mental Insight</h2>
<p>Order MindSphere today and unlock your full potential.</p>
<button onclick="alert('Redirecting to purchase page...')">Buy Now</button>
</section>
<footer>
© 2025 MindSphere Inc. All rights reserved.
</footer>
</body>
</html>
"""
@app.route("/")
def home():
return render_template_string(landing_page_html)
if __name__ == "__main__":
app.run(debug=True)
GPT-4oのコードで表示したものがこちら。

Llama 4 Maverickよりはカラーを使っていて、見た目はいい感じかもしれません。ただ、まぁどちらも一発で実用的なレベルにするにはプロンプトの影響もあり、難しいのかなと思います。
また、Llama 4 MaverickはFlaskのコードとHTMLを分けて出力をしてくれましたが、GPT-4oでは一つのファイルとして出力がされました。おそらくファイルは分けて開発する方が保守性が高く、規模が大きくなるにつれて管理も大変になるでしょう。
そこら辺を汲み取って出力してくれているかはわかりませんが、今回の例で言えばLlama 4 Maverickが出力したものの方が好ましいかなと思います。
データ解析用のダッシュボード開発
次にデータ解析用のダッシュボードを作ってもらいます。プロンプトは以下です。
私はデータサイエンティストとして働いています。日々、大量のCSVデータを読み込み、データを可視化してインサイト見つけ出す必要がありますが、データ量が膨大すぎるのでデータ解析用のダッシュボードで業務の効率化を図りたいと思っています。そこで、Pythonを使ってデータ解析用のダッシュボードを開発してください。
英語は下記です。
I work as a data scientist. Every day, I need to read in large amounts of CSV data, visualize the data, and find insights, but the amount of data is too large, so I want to use a dashboard for data analysis to improve the efficiency of my work. So, please develop a dashboard for data analysis using Python.
Llama 4 Maverickの結果はこちら
# Import necessary libraries
import dash
from dash import dcc, html
from dash.dependencies import Input, Output
import pandas as pd
import plotly.express as px
# Initialize the Dash app
app = dash.Dash(__name__)
# Define the layout of the dashboard
app.layout = html.Div([
html.H1('Data Analysis Dashboard'),
dcc.Upload(
id='upload-data',
children=html.Div([
'Drag and Drop or ',
html.A('Select CSV File')
]),
style={
'width': '100%',
'height': '60px',
'lineHeight': '60px',
'borderWidth': '1px',
'borderStyle': 'dashed',
'borderRadius': '5px',
'textAlign': 'center',
'margin': '10px'
},
multiple=False
),
html.Div(id='output-data-upload'),
dcc.Dropdown(
id='column-dropdown',
options=[],
value=None
),
dcc.Graph(id='data-graph')
])
# Define a function to parse the uploaded CSV file
def parse_contents(contents, filename):
content_type, content_string = contents.split(',')
decoded = content_string.encode('utf-8')
try:
if 'csv' in filename:
df = pd.read_csv(decoded.decode('utf-8'))
return df
else:
return None
except Exception as e:
print(e)
return None
# Define a callback function to update the output after uploading a CSV file
@app.callback(
Output('output-data-upload', 'children'),
Output('column-dropdown', 'options'),
Input('upload-data', 'contents'),
Input('upload-data', 'filename')
)
def update_output(contents, filename):
if contents is not None:
df = parse_contents(contents, filename)
if df is not None:
return html.Div([
html.H5(filename),
html.Hr(),
html.Div('Number of Rows: ' + str(len(df))),
html.Div('Number of Columns: ' + str(len(df.columns)))
]), [{'label': col, 'value': col} for col in df.columns]
return None, []
# Define a callback function to update the graph based on the selected column
@app.callback(
Output('data-graph', 'figure'),
Input('column-dropdown', 'value'),
Input('upload-data', 'contents'),
Input('upload-data', 'filename')
)
def update_graph(selected_column, contents, filename):
if contents is not None and selected_column is not None:
df = parse_contents(contents, filename)
if df is not None:
fig = px.histogram(df, x=selected_column)
return fig
return {}
# Run the Dash app
if __name__ == '__main__':
app.run_server(debug=True)
Llama 4 MaverickはDashで実装してくれました。実際に表示はできましたが、CSVの読み込みがエラーになってしまい解析までは行けませんでした。

GPT-4oの結果はこちら
import pandas as pd
import dash
from dash import dcc, html, Input, Output, State, dash_table
import plotly.express as px
import base64
import io
app = dash.Dash(__name__)
app.layout = html.Div([
html.H1("Data Analysis Dashboard", style={"textAlign": "center"}),
html.Hr(),
dcc.Upload(
id='upload-data',
children=html.Div([
'Drag and Drop or ',
html.A('Select CSV File')
]),
style={
'width': '100%',
'height': '60px',
'lineHeight': '60px',
'borderWidth': '1px',
'borderStyle': 'dashed',
'borderRadius': '5px',
'textAlign': 'center',
'margin': '10px'
},
multiple=False
),
html.Div(id='output-data-upload'),
html.Div(id='visualization-section')
])
def parse_contents(contents, filename):
content_type, content_string = contents.split(',')
decoded = base64.b64decode(content_string)
try:
if 'csv' in filename:
df = pd.read_csv(io.StringIO(decoded.decode('utf-8')))
return df
except Exception as e:
return html.Div([
'There was an error processing this file.'
])
@app.callback(
[Output('output-data-upload', 'children'),
Output('visualization-section', 'children')],
Input('upload-data', 'contents'),
State('upload-data', 'filename')
)
def update_output(contents, filename):
if contents is None:
return html.Div(), html.Div()
df = parse_contents(contents, filename)
if isinstance(df, pd.DataFrame):
table = dash_table.DataTable(
data=df.head(10).to_dict('records'),
columns=[{'name': i, 'id': i} for i in df.columns],
page_size=10,
style_table={'overflowX': 'auto'},
style_cell={'textAlign': 'left'}
)
return table, html.Div([
html.Br(),
html.Label('Select X Axis:'),
dcc.Dropdown(id='x-axis', options=[{'label': col, 'value': col} for col in df.columns], value=df.columns[0]),
html.Label('Select Y Axis:'),
dcc.Dropdown(id='y-axis', options=[{'label': col, 'value': col} for col in df.columns if pd.api.types.is_numeric_dtype(df[col])], value=df.select_dtypes(include='number').columns[0]),
html.Br(),
dcc.Graph(id='scatter-plot')
])
else:
return df, html.Div()
@app.callback(
Output('scatter-plot', 'figure'),
Input('x-axis', 'value'),
Input('y-axis', 'value'),
State('upload-data', 'contents'),
State('upload-data', 'filename')
)
def update_graph(x_axis, y_axis, contents, filename):
if contents is None or x_axis is None or y_axis is None:
return {}
df = parse_contents(contents, filename)
fig = px.scatter(df, x=x_axis, y=y_axis, title=f'Scatter Plot: {y_axis} vs {x_axis}')
return fig
if __name__ == '__main__':
app.run_server(debug=True)
GPT-4oもDashで作成をしてくれ、実際にデータを読み込んで操作することもできました。

なお、Claudeと連携してWeb操作する新しい方法について詳しく知りたい方は、下記の記事を合わせてご確認ください。

まとめ
本記事ではLlama 4 Maverickの概要からベンチマーク、使い方について解説をしました。ベンチマーク上は非常に高性能であることが示されていますが、一部疑問を呈する声も出ています。
実際にChatbot Arenaで1位を取っているコーディング性能をGPT-4oと比較をしてみましたが、そこまでの違いを感じることはできませんでした。
ぜひ皆さんも本記事を参考にLlama 4 Maverickの性能をチェックしてみてください。
最後に
いかがだったでしょうか
Metaが次世代LLM「Llama 4 Maverick」を公開。高性能・低コスト・マルチモーダル対応で、GPT-4o超えの実力。導入・実装に関心のある方は、ぜひお問い合わせください。
株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです!
開発実績として、
・新規事業室での「リサーチ」「分析」「事業計画検討」を70%自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80%削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント
などの開発実績がございます。
まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。
セミナー内容や料金については、ご相談ください。
また、大規模言語モデル(LLM)を対象に、言語理解能力、生成能力、応答速度の各側面について比較・検証した資料も配布しております。この機会にぜひご活用ください。