第47回:GPT-OSSのローカルLLM性能調査レポート
はじめに
2025年公開の gpt-oss は、ローカル実行を主眼としたオープンソースLLMファミリーで、gpt-oss-120b(約117B param)と gpt-oss-20b(約21B param)を含みます。Apache 2.0 ライセンス、強力な推論/エージェント機能、そしてローカルでも扱えるメモリ効率を特徴とします。本稿では以下を整理します。
- 必要ハードウェア(CPU/GPU、メモリ、ストレージ)
- モデル規模・推論速度・コンテキスト長
- 言語理解・推論性能(日本語対応を含む)
- 主要ローカルLLMとの比較(LLaMA, Mistral, Gemma, ELYZA, StableLM ほか)
- gpt-ossの独自優位性と差別化
- オンラインLLM(API型)との差異と業界への影響
1. 必要なハードウェア要件
- メモリ(VRAM / システムRAM):
- gpt-oss-20b:VRAM 16GB 推奨。CPUのみでもOS分を除き24GB程度で実用。モデルサイズは約12–13GB。Appleシリコン16GB環境の動作報告あり。
- gpt-oss-120b:80GB級メモリが目安。H100 80GB等の単一GPUで収容可能。非GPU時は64–80GB以上のRAMを推奨。
- ストレージ:20b ≈12–13GB、120b ≈60GB強。SSD配置でロード短縮。
- CPU/GPU:GPUは任意だが、20bはCPUオンリーも可能。とはいえ帯域の太いVRAM搭載GPUで高速化が顕著。
2. モデル規模・推論速度・コンテキスト長
gpt-oss は MoE(Mixture-of-Experts) と 4bit量子化(MXFP4)を組み合わせ、総パラメータは大きくとも実際に活性化されるパラメータを限定し、メモリと速度を両立します。20bは各トークンで約3.6B、120bは約5.1Bが活性化。
- ファイル/ロード:20b ≈12.4GB、120b ≈60GB(分割)で80GB VRAMにロード可能。
- 推論速度(目安):20bはCPUでも毎秒10 tok/s超、GPUでは80 tok/s超。120bはH100で140 tok/s級。一般PCのCPUのみだと遅延は増える。
- コンテキスト長:最大128k tokens。RoPE+スライディングウィンドウ注意で長文対話の計算爆発を抑制。
3. LLMとしての性能(日本語対応含む)
gpt-oss-120bは小型GPT-4系に匹敵する総合性能、20bはGPT-3.5級を示します。数学・コードなど一部項目で上回るケースもあります。いずれもCoT推論に対応。
日本語対応:多言語評価で120bが日本語を含む広範なベンチで高水準、20bも中〜高水準。日本語特化の従来オープンモデルより汎用性が高い傾向です。
4. 他ローカルLLMとの比較
モデル | 規模(目安) | 必要HW(目安) | 特徴・性能 | 日本語 |
OpenAI gpt-oss-120b |
~117B(MoE, 4bit量子化) |
H100 80GB / 64GB+ RAM |
GPT-4mini級。論理・コード強力、ツール使用可 |
多言語高精度 |
OpenAI gpt-oss-20b |
~21B(MoE, 4bit量子化) |
RTX 16GB / RAM 16–24GB |
GPT-3.5級、軽量・高速 |
多言語高水準 |
Meta LLaMA2 70B |
70B |
~48GB VRAM |
従来のオープン最上位級 |
英語優位 |
Mistral 7B |
7B |
~8GB VRAM |
小型高効率、13B級に匹敵 |
和文はやや不得手 |
Google Gemma 7B |
7B |
~6GB VRAM |
軽量・安全ツール群 |
多言語で一定水準 |
ELYZA JP Llama2 13B |
13B |
~16GB VRAM |
日本語特化で流暢 |
推論は控えめ |
Japanese StableLM 7B |
7B |
~8GB VRAM |
日本語トップクラス(小型) |
知識量は限定 |
5. gpt-ossの独自の強み
- 高性能 × 可搬性:単一GPU〜PCでも運用可能な「現実的」構成。
- MoE+4bit量子化:必要計算量を抑えつつ精度を確保。メモリ効率が良い。
- 推論レベルの制御(Low/Medium/High):速度と精度を用途で切替。
- CoT可視化の設計:思考過程の追跡・検証がしやすい(最終応答には含めない前提)。
- 強力なエージェント機能:検索やコード実行などツール呼び出しをローカルでも。
- 安全性と拡張性:厳格な安全評価+Apache 2.0で自由に微調整。
6. オンラインLLMとの違いと業界への影響
- データ主権・プライバシー:オンプレ完結で機密データを外部送信しない運用が可能。
- カスタマイズ性:自社コーパスでの再学習・応答トーン調整が自由。
- コスト構造:初期投資後は従量課金なしで大量リクエストを処理(電力・保守は別途)。
- 最新性と最高精度:最上位クラウドモデルに届かない分野もあるため、用途で使い分けが現実解。
- レイテンシ/オフライン:ネット遅延が無く高速。閉域・オフラインでも運用可。
- 波及効果:オンプレAIの拡大、GPU需要、ツール群エコシステムの拡大、クラウドとの併用が一般化。
まとめ
gpt-oss はローカルLLMの実用域を一段引き上げました。大規模ながら現実的な運用要件、強い推論、日本語対応、エージェント機能、安全性と拡張性——総合力が高く、オンプレ用途の中核候補になり得ます。API型クラウドLLMと適材適所で併用し、プライバシー・コスト・速度の最適点を見つけることが、これからのAI活用の鍵です。