【gpt-oss-120b/gpt-oss-20b】ローカル利用可能なオープンウェイト推論モデルを徹底解説!

gpt-oss-120b gpt-oss-20b ローカル 利用可能 オープンウェイト 推論モデル
押さえておきたいポイント
  • 1,170億パラメータの「gpt-oss-120b」と、200億パラメータの軽量版「gpt-oss-20b」が同時リリース
  • gpt-oss-120bはo4-miniと同等の推論精度、gpt-oss-20bはo3-miniとほぼ同等の精度
  • Apache2.0ライセンスのもと公開され、商用利用や改変、再配布も可能

2025年8月6日、OpenAIはオープンウェイトモデルファミリー「gpt-oss」をリリースしました!

1,170億(実稼働51億)パラメータの「gpt-oss-120b」と、より軽量な200億パラメータの「gpt-oss-20b」の2本立てでリリースされており、従来はクローズド環境に置かれがちだった高性能なLLMを、誰でもダウンロードして検証・改変・再配布できるようになっています。

発表直後から研究者・開発者はもちろん、国内外のAIインフルエンサーの間でも「o3/o4-mini に匹敵する推論力を OSSで扱える時代が来た」と話題になっており、GitHubやHugging Face、各種クラウド推論基盤で急速にエコシステムが立ち上がっています。

本記事では、gpt-oss-120bとgpt-oss-20bの概要や性能、使い方まで徹底的に解説します。

ぜひ最後までご覧ください。

\生成AIを活用して業務プロセスを自動化/

目次

gpt-oss-120bとgpt-oss-20bの概要

参考:https://openai.com/index/introducing-gpt-oss

gpt-ossは、「高い推論力を持つモデルを、法的・技術的ハードルなく誰もが利用できる状態で提供する」ことを目的にリリースされています。

gpt-oss-120bは、36層・約117B パラメータ(MoE方式でトークン当たり約5.1B がアクティブ)という規模ながら、H100(80 GB メモリ)を1枚用意するだけで動作し、OpenAI社内評価ではo4-miniと同等の推論精度を達成しました。

一方の、gpt-oss-20bは単体のGPU環境での利用を想定しており、16GBメモリ環境でも動作可能です。

参考:https://openai.com/index/introducing-gpt-oss

両モデルともに、最大100万トークンのコンテキストを扱うことができ、Tool UseやRAG、エージェント指向実行など のAPI版GPT-4系列と同じようなフローをOSS環境で組める点が強みとなっています。

また、後述しますがApache 2.0ライセンスのもとで公開されていて、「商用利用・改変・再配布・特許利用を包括的に許諾する」ということで、大胆なオープン方針が打ち出されています。

なお、RAGについて詳しく知りたい方は、以下の記事も参考にしてください。

gpt-oss-120bとgpt-oss-20bの性能

公開されたモデルカードと外部ベンチマークによると、gpt-oss-120bは、博士レベルの科学問題「GPQA-Diamond」で 81.0%、人類最後の試験「Humanity’s Last Exam」で17.7%、国際数学オリンピックの予選問題「AIME 2024」で 91.4%を記録し、同じモデルサイズ帯のDeepSeek-R1-0528 を一貫して上回りました

参考:https://openai.com/index/introducing-gpt-oss
参考:https://openai.com/index/introducing-gpt-oss

また、SWE-bench Verifiedでは54.6%を記録し、コード修正系タスクでGPT-4oGPT-4.5を追い抜くケースも報告されています。

一方のgpt-oss-20bは、o3-miniとほぼ同等のMMLUスコアながら、推論速度とメモリ効率が高く、小規模サービスでの常時稼働などにも適しています。

さらに、両モデルともに、HopperまたはBlackwellファミリーのGPUと互換性のあるmxfp4形式で量子化され、ローカル実行する際にも、品質をほとんど落とさずに30〜40%のVRAM削減が見込めるようです。

gpt-oss-120bとgpt-oss-20bのライセンス

gpt-ossシリーズが注目を集めている理由の1つが、完全オープンソース寄りのApache 2.0ライセンスを採用したことです。

従来のGPT系列モデルは、API利用に限定されていましたが、今回は重みそのものを誰でも自由にダウンロードして検証・埋め込み・改変できるようになりました。

利用用途可否
商用利用⭕️
改変⭕️
配布⭕️
特許使用⭕️
私的使用⭕️
参考:https://github.com/openai/gpt-oss/blob/main/LICENSE

Apache 2.0ライセンスはコピーレフト義務がないため、例えば、企業が自社モデルとしてフォークして、追加学習を施し、クローズドに再配布することも技術的・法的には可能となっています。

ただし、OpenAI Usage Policyでは「違法・危険行為の禁止」など最低限のガイドラインが定められているため、実際の導入時にはポリシーの確認をするようにしましょう。

gpt-oss-120bとgpt-oss-20bの料金

gpt-ossは、重みのダウンロード自体は無料となっています。ただし、推論をクラウドで高速に回す場合は、各ホスティング・プロバイダーが独自に課金体系を設定しているので、用途やバジェットに応じて選択する必要があります。

スクロールできます
プランgpt-oss-120b (Input / Output)gpt-oss-20b (Input / Output)
自己ホスト(オンプレ / 自社クラウド)
Groq API$0.15 / $0.75$0.08 / $0.40
Together AI$0.16 / $0.60$0.10 / $0.38
参考:https://console.groq.com/playground?model=openai/gpt-oss-120b
参考:https://www.together.ai/openai

GPU環境を保有していない個人・小規模チームにおいても、上記のようなAPIを利用すれば、数円〜数十円規模でモデルを呼び出すことができます。

なお、Groqについて詳しく知りたい方は、以下の記事も参考にしてください。

gpt-oss-120bとgpt-oss-20bの使い方

gpt-oss-120bおよび20bの利用方法はいくつかありますが、今回は公式で推奨されている最もスタンダードな方法ローカルアプリ経由での利用方法を紹介します。

スタンダードな方法

まず、Python 3.9以上が動くPCを用意します。GPUがあると推論が高速になりますが、GPUがなくてもCPUのみで動かすことも可能です。もし、NVIDIA GPUが搭載されている場合は、ターミナルで nvidia-smi を実行して、CUDA ドライバが正しく導入されているかを確認しておくとベターです。

次に、作業用フォルダーを作り、仮想環境を作成します。Mac や Linux ならターミナル、Windows なら PowerShell で以下を順に入力してください。

python -m venv gptoss-env
source gptoss-env/bin/activate

仮想環境が有効化されたら、まず PyTorch を入れます。GPU を使うので CUDA 対応版をインストールしてください(PyTorch の公式インストーラページでコマンドを自動生成できます)。そのうえで Transformers と Accelerate を入れます。

pip install -U torch torchvision torchaudio 
pip install -U transformers accelerate

GPT-OSS は MXFP4 量子化モデルが公式に配布されています。H100世代以降のGPUであれば、追加でTritonカーネルも入れておくと推論が高速化します。

pip install triton kernels
pip install git+https://github.com/triton-lang/triton.git@main#subdirectory=python/triton_kernels

次に Hugging Face Hub からモデルを取得します。容量の小さい 20B モデル(VRAM 16 GB ほどで動作)であれば高性能なコンシューマ GPU 1 枚でも試せます。120B モデルは 60 GB 以上の VRAM やマルチ GPU 構成が推奨です。

# run_gpt_oss.py
from transformers import AutoTokenizer, AutoModelForCausalLM

model_name = "openai/gpt-oss-20b"   # 120B を試す場合は "openai/gpt-oss-120b"
tokenizer  = AutoTokenizer.from_pretrained(model_name)
model      = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",      # 利用可能なら自動で bfloat16 や fp16 を選択
    device_map="auto"        # GPU があれば自動配置、なければ CPU
)

prompt = "日本語で自己紹介してください。"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=120)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

上記のコードでは、まず公開モデルの名前gpt-oss-20b(またはgpt-oss-120b)を指定してトークナイザーとモデルを読み込んでいます。

モデルをロードしたら、プロンプトを与えてテキスト生成を行いましょう。上の例では「日本語で自己紹介してください。」というプロンプトを与えています。実行すると、日本語で自己紹介文が自然に生成されるはずです。

ローカルアプリ経由での利用方法

ここでは OllamaLMStudio という2つのアプリケーションを使用する方法を紹介します。それぞれのインストール手順、基本的な操作方法、モデルの実行方法などについて説明します。

Ollamaを使った方法

Ollama(オラマ)は、ローカルで大規模言語モデルを手軽に実行できるツールです。CLIベースで動作し、モデルのダウンロードから実行まで一貫して管理できます。まずはインストールから始めましょう。

MacではHomebrewを使ったインストールが簡単です。ターミナルを開き、brew install ollama とコマンドを入力すると、自動的にOllamaがダウンロード・インストールされます。インストール後、ollama コマンドが使えるようになります(※Homebrewがインストールされていない場合は、先にHomebrew自体のインストールが必要です)。

Windows向けには公式サイトからインストーラー(.msi または .exeファイル)をダウンロードできます。まず Ollama公式サイトにアクセスし、ダウンロードページからWindows版インストーラーを取得してください。ダウンロードしたインストーラーをダブルクリックし、画面の指示に従ってOllamaをインストールします。

次に、Ollamaを用いて gpt-oss-20b モデルをダウンロードし、実行します。gpt-oss-20bはパラメータ約200億(20B)の大規模なオープンソースモデルで、初回利用時にはデータのダウンロードが必要です。実行コマンドは以下の通りです。

ollama pull gpt-oss:20b
ollama run gpt-oss:20b

LM Studioを使った方法

LMStudio はデスクトップ向けのローカルLLM実行環境です。GUIで動作し、プログラミング知識がなくても比較的簡単にモデルを扱うことができます。

まず、LMStudio公式サイトにアクセスし、アプリケーションをダウンロードしてモデルをダウンロードしましょう。

モデルがロードされたら、対話をすることができる状態になります。

ローカル環境でもちゃんと推論してくれていますね。

gpt-oss-120bとgpt-oss-20bの活用事例

最後にgpt-ossの活用事例をご紹介します。

今回解説する事例において、弊社がX(旧Twitter)で発見した参考となるツイートを紹介させていただいております。取り下げなどのご連絡は、contact@weel.co.jp からご連絡ください。

H100環境での120b利用

gpt-oss-120bは、H100(80GBメモリ)での利用が推奨されていますが、上記ポストではH100(65GBメモリ)にて利用されています。サクサクと文章生成できていることが確認できますね。

なお、上記の関連ポストで触れられている通り、gpt-oss-120bの学習データのカットオフ日は2024年6月となっているようです。

MCPツール利用

こちらのポストでは、LM Studioにおいて、特段プロンプトで指示せずとも、モデル側が必要と判断してMCPツールを呼び出していることが確認できます。単なる推論にとどまらず、ツール呼び出しもローカル環境でしてくれるのはありがたいですね。

なお、MCPを活用した業務効率化について詳しく知りたい方は以下の記事も参考にしてみてください。

既存ページのAIラッピング

こちらのポストでは、gpt-oss-20bを使って、既存のHTMLサンプルページをAIでラッピングするデモが紹介されています。システムプロンプトに基準となるHTMLを入力して、ユーザープロンプトでアクセス情報を与えると、モデルが瞬時にHTMLを再構成して、新しいアクセスページを生成しているようです。

Groqによる推論で、毎秒1,000トークン超の応答が得られているようです。

まとめ

今回は、オープンソースで公開されたgpt-oss-120bとgpt-oss-20bについて、その性能や使い方を紹介しました。

これだけ高性能な言語モデルを自分たちの手元で制御して活用できるというのは、プライバシーやカスタマイズ性の観点で非常に価値があります。

今後はこれらのモデルをベースとして、各種タスクに特化したチューニングやさらなる高速化が進みそうで今後の展開が期待されます。

本記事を参考に、ぜひgpt-ossをお手元で試してみてください。

サービス紹介資料

生成系AIの業務活用なら!

・生成系AIを活用したPoC開発

・生成系AIのコンサルティング

・システム間API連携

最後に

いかがだったでしょうか?

株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです!

開発実績として、

・新規事業室での「リサーチ」「分析」「事業計画検討」を70%自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80%削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント

などの開発実績がございます。

生成AIを活用したプロダクト開発の支援内容は、以下のページでも詳しくご覧いただけます。
➡︎株式会社WEELのサービスを詳しく見る。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ
無料相談

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。

セミナー内容や料金については、ご相談ください。

また、サービス紹介資料もご用意しておりますので、併せてご確認ください。

投稿者

  • WEEL Media部

    株式会社WEELが運営する生成系AI関連メディア「生成AI Media」は、AIの専門家によるWebメディアです。 AIに特化した編集部がAIの活用方法、導入事例、ニュース、トレンド情報を発信しています。

  • URLをコピーしました!
  • URLをコピーしました!
目次