【DeepSeek-Math-V2】難関数学コンテストで金メダル相当の実力！？数学問題に特化した大規模言語モデルを徹底解説

2025-12-012025-12-02

DeepSeek Math V2 難関数学コンテスト金メダル相当実力数学問題特化大規模言語モデル徹底解説

押さえておきたいポイント

DeepSeek発、数学問題解答に特化した最新の大規模言語モデル
IMO（国際数学オリンピック）やPutnam試験など難関数学コンテストの問題で金メダル相当の高得点を記録
必要なシステム要件が高く、デモサイトなどもないため、2025年12月時点では気軽に試せるモデルではない

2025年11月27日、DeepSeek社は数学問題解答に特化した最新の大規模言語モデル「DeepSeek-Math-V2」を公開しました！

🐋 The Whale is back!!

DeepSeek just dropped an IMO gold-medalist model.

On ProofBench-Advanced—where models prove formal mathematical theorems—GPT-5 scores 20%. Gemini Deep Think IMO Gold hits 65.7%. DeepSeek Math V2 (Heavy) scores 61.9%.

That's second place—but Gemini isn't… pic.twitter.com/I6rkNGjuar
— Ask Perplexity (@AskPerplexity) November 28, 2025

従来のAIモデルが数値的な正答のみを追求してきたのに対し、本モデルは「正答が正しい推論を伴っているか」を重視しており、自ら生成した証明を検証する仕組みを備えています。

この新しいアプローチによって、IMO（国際数学オリンピック）やPutnam試験など難関数学コンテストの問題で金メダル相当の高得点を記録し、最新の数学推論タスクで人間並みの成果を示しています。

本記事では、そんなDeepSeek-Math-V2の概要や性能、利用方法などについて詳しく解説します。

ぜひ最後までご覧ください！

＼生成AIを活用して業務プロセスを自動化／

【無料】専門家に相談する

DeepSeek-Math-V2の概要

DeepSeek-Math-V2は、従来の数学AIが苦手とする証明過程の検証に注力したモデルです。

モデルの基本アーキテクチャには、深層混合専門家モデル（MoE）である「DeepSeek-V3.2-Exp-Base」が採用されており、その上で、自己検証型の学習手法を適用しています。

DeepSeek-V3.2-Exp-Baseモデルの構造 — 参考：https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

具体的には、まず「証明の妥当性を評価する検証モデル」を訓練し、次に、その検証モデルを報酬として利用する「証明生成モデル」を訓練する二段階プロセスを経ています。

これによってモデルは、自ら作成した証明文中の論理的な矛盾や抜けを自分で見つけ出し、解決しながら証明を完成させる能力を獲得します。

このように、一度に最終解だけでなく「なぜその解が導かれるか」を確かめる仕組みを取り入れているので、深い数理推論や定理証明の能力が飛躍的に向上しているという仕組みです。

また、DeepSeek社によれば、通常の回答精度を超えて「正しい証明」を完成させることに主眼を置いているようで、この点が他の数学AIモデルとの大きな違いだそうです。

なお、DeepSeekの歴代モデルについて詳しく知りたい方は、以下の記事も参考にしてみてください。

WEEL

【無料なのにChatGPT超え】コスパ最強LLM「DeepSeek」の歴代モデルまとめ | WEEL 中国発のオープンソースLLM「DeepSeekモデル」を徹底解説。ChatGPT並みの高性能を無料で体験できると話題のDeepSeek-V3やR1をはじめ、初代をはじめ歴代モデルを一覧で紹介…

DeepSeek-Math-V2の性能

DeepSeek-Math-V2は、数学証明ベンチマークでも極めて高い性能を叩き出しています。

上の図は、DeepMindチームが公開したIMO-ProofBenchの結果ですが、DeepSeek-Math-V2は、基本問題（ProofBench-Basic）で99%近い解答率を記録し、ほぼ全問を正解しています。

一方、高度問題（ProofBench-Advanced）でも約62%の正答率を達成し、他モデルを大きく上回る結果となりました。

数学コンテストでの成績も優秀で、例えば、IMO 2025では、5問中5問を完全解答して83.3%の得点を獲得し、CMO 2024でもゴールドメダル級の成績を収めました。

Competitions — 参考：https://github.com/deepseek-ai/DeepSeek-Math-V2?tab=readme-ov-file

さらに、Putnam 2024においては、118/120点（約98.3%）を達成しています。

これらの結果は、DeepSeek-Math-V2が、複雑な定理証明問題に対しても「Goldメダル」級の解答能力を持つことを意味しています。

DeepSeek-Math-V2のライセンス

DeepSeek-Math-V2は、Apache License 2.0で公開されています。Apache 2.0は商用利用や改変、再配布、私的利用を広く認める寛容なオープンソースライセンスで、特許利用にも対応しています。

利用用途	可否	備考
商用利用	⭕️
改変	⭕️
配布	⭕️
特許使用	⭕️
私的使用	⭕️

DeepSeek-Math-V2のライセンス

DeepSeek-Math-V2の料金

DeepSeek-Math-V2モデルのダウンロードやローカル環境での推論自体は無料ですが、DeepSeek社が提供するクラウドAPIを利用する場合は料金が発生します。以下の表は代表的な料金例です。

スクロールできます

利用形態	料金例	備考
モデルダウンロード・ローカル推論	無料
DeepSeek公式API (推論)	入力：$0.14/100万トークン (キャッシュヒット) 　　　$0.55/100万 (ミス) 出力：$2.19/100万トークン	トークン単位での課金

DeepSeek-Math-V2の料金表

DeepSeek-Math-V2の使い方

DeepSeek-Math-V2は、単体で「pip install → AutoModelForCausalLM.from_pretrained」するというより、ベースモデルであるDeepSeek-V3.2-Expの推論コードを使って動かす前提になっているようです。

また、本モデルは基本的に、Linux + GPUクラスタの環境を前提としているようです。筆者のMacOS Appleシリコン環境では実装はできませんでしたが、使い方の手順だけ説明していきます。

まず最初に、GitHubのDeepSeek-V3.2-Expリポジトリをクローンします。DeepSeek-Math-V2のREADMEからも推論用として参照されています。

git clone https://github.com/deepseek-ai/DeepSeek-V3.2-Exp.git
cd DeepSeek-V3.2-Exp

次に、Hugging FaceからDeepSeek-Math-V2の重みをローカルに落とします。素直に git clone で取得すればOKです。

git lfs install
git clone https://huggingface.co/deepseek-ai/DeepSeek-Math-V2

続いて、DeepSeek-V3.2-Exp の推論デモが期待する独自フォーマットに変換します。

公式READMEでは、inference ディレクトリに移動し、convert.py に Hugging Face側チェックポイントのパスと保存先を渡す形になっています。

DeepSeek-Math-V2を使う場合も、この HF_CKPT_PATH に、先ほどクローンしたDeepSeek-Math-V2のパスを指定するだけです。

cd inference
export HF_CKPT_PATH=../DeepSeek-Math-V2       # ここをDeepSeek-Math-V2のパスに合わせる
export SAVE_PATH=./mathv2-converted           # 変換後の保存先
export EXPERTS=256                            # READMEのデフォルト例
export MP=8                                   # 利用するGPU数に合わせる

python convert.py \
  --hf-ckpt-path ${HF_CKPT_PATH} \
  --save-path ${SAVE_PATH} \
  --n-experts ${EXPERTS} \
  --model-parallel ${MP}

※なおローカル実行は、H100クラスのGPUクラスタが前提となっていて、一般的なPCでは現実的ではありません。GPUがない場合は、Hugging Faceの推論エンドポイントや、Novitaなどのプロバイダ経由で利用するのが現実的な選択肢になるかと思います。

変換が終わったら、同じくDeepSeek-V3.2-ExpのREADME に記載されているコマンドで対話シェルを起動します。設定ファイルには公式例と同じ config_671B_v3.2.json が使われているので、まずはそれに従うのが無難だと思います。

export CONFIG=config_671B_v3.2.json

torchrun --nproc-per-node ${MP} generate.py \
  --ckpt-path ${SAVE_PATH} \
  --config ${CONFIG} \
  --interactive

ここまで実行すると、ターミナル上に対話型のプロンプトが立ち上がります。

あとは数学の問題文を入力すると、DeepSeek-Math-V2が証明付きの解答を返してくれるかと思います。

例えば、「Solve the equation x^3 – 6x^2 + 11x – 6 = 0. Show all steps.」のように「解いてほしい内容」と「証明を詳しく」といった指示を含めて投げると、このモデルの自己検証型の強みが分かりやすく確認できるかと思います。

以上、使い方のご紹介でした。

デモなどもなく、現状は気軽に試せるモデルではないですが、今後のアップデートにも期待しましょう。

DeepSeek-Math-V2の活用可能性

最後にDeepSeek-Math-V2の活用可能性をご紹介します。ぜひご自身のタスクの参考にしてみてください。

大学入試・競技数学の解説生成

DeepSeek-Math-V2は、証明付きで解答を返せるため、大学入試や数学オリンピックの過去問を体系的に解説する用途に向いています。

同じ問題に対して「別解を提示して」と指示すれば、複数のアプローチを比較できて、受験対策や演習教材の自動生成にも応用できるかと思います。

人間の添削を組み合わせれば、高品質な解答集を短時間で整備できる点が大きなメリットです。

数理モデル・アルゴリズム設計のアイデア出し

数理最適化や統計モデル、確率的アルゴリズムなど、式変形や仮定整理が多いタスクでは、DeepSeek-Math-V2に「前提条件の洗い出し」と「候補となる定式化の列挙」を任せる使い方が考えられます。

われわれエンジニアは、その中から現実的な案を選ぶだけで、検証とコード実装にリソースを割くことができます。

証明の雛形を生成させてから、自分で細部を詰めていくようなワークフローとも相性が良さそうです。

教育・自習向けの対話型数学チューター

たとえば、「この途中式のどこが間違っているか教えて」と聞いたときに、DeepSeek-Math-V2に解答だけでなく誤り箇所の指摘や修正案を生成させることで、対話型の数学チューターとして使えます。

同じテーマの問題を、レベル別に自動生成させれば、理解度に応じた段階的な練習も可能になると思います。

教師や塾講師が解説作成にかける時間を減らしつつ、生徒ごとにきめ細かなフィードバックを提供できそうですね。

まとめ

DeepSeek-Math-V2は「自己検証型」のアプローチを通じて、数学的推論能力を飛躍的に高めた最先端モデルです。

正答のみに依存せず、証明過程そのものをチェックする仕組みによって、複雑な定理証明や競技数学問題に対しても高い精度で解答できます。

今後もモデルの活用範囲は拡大が期待され、数学教育支援や研究用途への応用など、より高度な数学タスクへの挑戦が続きそうです。

気になる方は、ぜひ一度試してみてください！

最後に

いかがだったでしょうか？

弊社では、AI導入を検討中の企業向けに、業務効率化や新しい価値創出を支援する情報提供・導入支援を行っています。最新のAIを活用し、効率的な業務改善や高度な分析が可能です。

株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです！

開発実績として、

・新規事業室での「リサーチ」「分析」「事業計画検討」を70％自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80％削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント

などの開発実績がございます。

生成AIを活用したプロダクト開発の支援内容は、以下のページでも詳しくご覧いただけます。
➡︎株式会社WEELのサービスを詳しく見る。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

大規模言語モデル（LLM）比較レポート