第47回:GPT-OSSのローカルLLM性能調査レポート

GPT-OSS ローカルLLM 調査イメージ

はじめに

2025年公開の gpt-oss は、ローカル実行を主眼としたオープンソースLLMファミリーで、gpt-oss-120b(約117B param)と gpt-oss-20b(約21B param)を含みます。Apache 2.0 ライセンス、強力な推論/エージェント機能、そしてローカルでも扱えるメモリ効率を特徴とします。本稿では以下を整理します。

1. 必要なハードウェア要件

2. モデル規模・推論速度・コンテキスト長

gpt-oss は MoE(Mixture-of-Experts)4bit量子化(MXFP4)を組み合わせ、総パラメータは大きくとも実際に活性化されるパラメータを限定し、メモリと速度を両立します。20bは各トークンで約3.6B、120bは約5.1Bが活性化。

3. LLMとしての性能(日本語対応含む)

gpt-oss-120bは小型GPT-4系に匹敵する総合性能、20bはGPT-3.5級を示します。数学・コードなど一部項目で上回るケースもあります。いずれもCoT推論に対応。

日本語対応:多言語評価で120bが日本語を含む広範なベンチで高水準、20bも中〜高水準。日本語特化の従来オープンモデルより汎用性が高い傾向です。

4. 他ローカルLLMとの比較

モデル規模(目安)必要HW(目安)特徴・性能日本語
OpenAI gpt-oss-120b ~117B(MoE, 4bit量子化) H100 80GB / 64GB+ RAM GPT-4mini級。論理・コード強力、ツール使用可 多言語高精度
OpenAI gpt-oss-20b ~21B(MoE, 4bit量子化) RTX 16GB / RAM 16–24GB GPT-3.5級、軽量・高速 多言語高水準
Meta LLaMA2 70B 70B ~48GB VRAM 従来のオープン最上位級 英語優位
Mistral 7B 7B ~8GB VRAM 小型高効率、13B級に匹敵 和文はやや不得手
Google Gemma 7B 7B ~6GB VRAM 軽量・安全ツール群 多言語で一定水準
ELYZA JP Llama2 13B 13B ~16GB VRAM 日本語特化で流暢 推論は控えめ
Japanese StableLM 7B 7B ~8GB VRAM 日本語トップクラス(小型) 知識量は限定

5. gpt-ossの独自の強み

6. オンラインLLMとの違いと業界への影響

まとめ

gpt-oss はローカルLLMの実用域を一段引き上げました。大規模ながら現実的な運用要件、強い推論、日本語対応、エージェント機能、安全性と拡張性——総合力が高く、オンプレ用途の中核候補になり得ます。API型クラウドLLMと適材適所で併用し、プライバシー・コスト・速度の最適点を見つけることが、これからのAI活用の鍵です。

← ブログTOPへ戻る