セキュリティ要件・コスト・オフライン稼働。ローカルLLMが「実用」になった2026年現在、日本語性能で選ぶならどのモデルか。なぜオンプレミス運用が重要なのか。どう環境を構築するのか。コンシューマGPUでの個人検証から、企業のオンプレミス基盤構築までを通しで整理してみた。
2024年までの「ローカルLLM = クラウドの劣化版」という構図は、2026年に入ってほぼ消滅した。Qwen3、Gemma 4、Llama 4などの登場により、コーディング分野では一部のローカルモデルがクローズドモデルに肉薄、あるいは超越し始めている。SWE-benchではGLM-5.1がGPT-5.4を超えるスコアを記録し、Kimi K2.5は76.8%、MiniMax M2.5は80.2%を達成という報告もある。
ローカルで動かす理由は、もはや「劣化版でも我慢」ではない:
医療データや個人情報を扱う案件、あるいは閉域環境での運用が前提となる業務では、ローカル実行がもはや「選択肢」ではなく「要件」になっているケースも多い。
ローカルLLMの話題でしばしば混同されるのが「ローカル」と「オンプレミス」の関係だ。整理しておくと、ローカルLLMはモデルを自社で保持・実行する方式を指し、その実行環境がオンプレミスであることもクラウドIaaS(自社管理のVPC内)であることもある。本記事で扱う「オンプレミス運用」は、物理サーバー(または閉域ネットワーク内のサーバー)で完結する構成を指す。
1. データ主権とコンプライアンス
クラウドLLMでは、入力データが外部サーバーに送信される。学習に利用されないと明言されたAPIを使えばリスクは限定できるが、「データが社外に出る」という構造そのものを許容できない業界がある:
「データがどこにあるか」を明確に説明できることは、セキュリティレビューや監査対応において構造的に情報漏洩リスクを排除できるという意味で、極めて大きい。「外部にコピーすること自体がNG」という規定がある業界では、クラウドLLMは初めから検討対象外となる。
2. 長期的なコスト最適化
クラウドLLMは初期費用ゼロで始められる反面、利用量に応じた従量課金が発生する。社員数百人が日常的に使う規模になると、月間トークン消費が急増し、年間コストが数百万〜数千万円規模になることも珍しくない。
オンプレミスは初期投資(GPU サーバー、ネットワーク、構築費)が必要だが、運用が軌道に乗れば電気代と保守費だけで稼働し続ける。3年スパンで見ると、月100万トークン超の処理規模ではオンプレミスの方が圧倒的に有利になるケースが多い。
3. レイテンシと可用性
ネットワークを経由しないため、リクエストから応答までの遅延が小さい。外部APIに依存しないことで、クラウド側の障害・レート制限・APIバージョン変更に振り回されることもなくなる。基幹業務に組み込む場合、SLAを自社でコントロールできる意義は大きい。
4. カスタマイズの自由度
クラウドLLMでは、提供事業者が用意したモデルとAPIに合わせる必要がある。オンプレミスならモデル本体・推論パラメータ・前後処理パイプラインをすべて自社の業務に最適化できる:
5. 既存資産との統合
製造業の図面データや基幹システムの蓄積データなど、数TB級のオンプレミス資産を持つ企業にとって、それらをわざわざクラウドに移行することは現実的でない。既存のオンプレミスシステムにLLMだけを「足す」構成が、最も合理的な選択になる。
6. ベンダーロックインの回避
クラウドLLMの価格改定、提供終了、機能変更はベンダーの都合で発生する。OpenAIやAnthropicの過去のモデル廃止アナウンスを見ても、「使い続けたいモデルが半年後にAPI終了」というリスクは現実的だ。Apache 2.0ライセンスのQwen3やGemma系をオンプレミスで運用していれば、ベンダーがサービスを止めても自社内でモデルとインフラを完全に統制し続けられる。事業の根幹をAIに委ねるなら、この自律性は無視できない。
良いことばかりではない。導入前に押さえておくべき主な課題:
| 課題 | 内容 | 対策 |
|---|---|---|
| 初期投資 | GPUサーバー数百万円〜、冷却・電源・ネットワーク整備 | スモールスタート(1台構成)で検証してから拡張 |
| 専門人材 | インフラ・MLOps・セキュリティの複合スキルが必要 | SIerパートナーとの協業、社内育成と外部活用の併用 |
| 運用負荷 | ハードウェア保守、OSアップデート、モデル更新、監視 | 構成管理(Ansible/Terraform)、監視(Prometheus/Grafana)の整備 |
| ガバナンス | 利用ガイドライン、アクセス制御、ログ監査 | ISMS準拠の運用ルール策定、SSOによる認証統合 |
「技術的に動かせること」と「組織として継続運用できること」の間には大きな差がある。導入の意思決定では、ハードウェア選定よりむしろ運用体制の設計が成功要因となるケースが多い。
| 業界 | 用途 | 求められる要件 |
|---|---|---|
| 医療 | 電子カルテ要約、診療支援、リハビリ補助 | 個人情報を院外に出さない、24時間稼働 |
| 法務 | 契約書レビュー、判例検索、文書ドラフト | 依頼者情報の機密保持 |
| 製造 | 技術文書検索、不具合解析、設計支援 | 営業秘密保護、工場ネットワーク内完結 |
| 金融 | 与信判断補助、社内文書RAG、レポート要約 | FISC準拠、監査対応 |
| 官公庁 | 文書作成支援、議事録要約、相談業務補助 | ISMAP対応、住民情報保護 |
| 教育 | 教材生成、添削、学習支援 | 児童・生徒のプライバシー保護 |
実用に向けて、まず以下を整理しておく。
特にMoEの台頭は2026年のローカルLLM事情を大きく変えた。総パラメータが大きくても推論時はその一部しか動かない設計のため、これまでは「VRAMが足りないから諦め」だったクラスのモデルが手元で動くようになっている。
2026年現在、日本語ローカルLLMで最も信頼できるのがQwen3シリーズ。Alibaba Cloudが2025年4月にリリースしたこのファミリーは、後継のQwen3.5、Qwen3.6まで世代を重ね、日本語品質はGPT-4を超えるレベルとも評される。
主なバリエーション:
| モデル | パラメータ | VRAM(Q4) | 特徴 |
|---|---|---|---|
| Qwen3-8B | 8B | 約6GB | 軽量・汎用、エッジ向け |
| Qwen3-14B | 14B | 約9GB | バランス型、ミドルレンジGPUの定番 |
| Qwen3-32B | 32B | 約20GB | ハイエンドGPU向け、高品質 |
| Qwen3-30B-A3B (MoE) | 30B総/3B active | 約12GB | 限られたVRAMで32B級品質 |
選ぶ理由:
VRAM 12〜16GBクラスのGPUであれば、Qwen3-14B (Q4_K_M) が現実的な第一候補となる。Qwen3-30B-A3Bも12GB VRAMで動くという実測報告があり、MoEの恩恵を体感したいなら試す価値が高い。
Googleの公開モデル。Gemma 3は1B/4B/12B/27Bの4サイズ、Gemma 4ではMoEを採用したE2B/E4B/31B/26B-A4Bという構成になった。
QAT(Quantization-Aware Training)対応モデルのVRAM:
| モデル | BF16 | int4 |
|---|---|---|
| Gemma 3 27B | 54GB | 14.1GB |
| Gemma 3 12B | 24GB | 6.6GB |
| Gemma 3 4B | 8GB | 2.6GB |
Gemma 3 27B (int4) はRTX 3090 24GB級なら余裕で動く。VRAM 16GBクラスなら12B、24GBクラスなら27B が快適圏といえる。
Gemma 4ではDGX
Sparkでのベンチマーク報告で、31Bが日本語タスク97.9%、26B-A4B(Active
3.8B)が96.4%を記録し、Nemotron 3 Super (120B)
を上回るという結果が出ている。Thinkingモードが全モデルに搭載され、Ollama
0.20.0以降では "think": true で有効化できる。
日本語のトークン効率が良く、ReActスタイルのfunction callingにも強い印象がある。マルチモーダル(4B以上は画像入力対応)も標準装備。
Llama 4はMeta初のMoE採用世代。Scoutが17B active / 109B total、Maverickが17B active / 400B total。日本語を含む12言語対応。
Scoutの特徴:
ただしコンシューマGPUでのフルローカル稼働は現実的に厳しい。完全ロードに400GB以上のVRAMが必要なMaverickは論外として、Scoutも個人用途では量子化を強くかける必要がある。社内文書検索やコードレビュー用にサーバー側で動かす想定なら最有力候補のひとつ。
ライセンスはLlama 4 Community License。月間アクティブユーザー7億超のサービスは別途許諾が必要、EU圏のマルチモーダル利用には制限がある点に注意。
「日本語の汎用LLMがここまで強い時代に、日本語特化モデルは必要か」という議論はあるが、特定用途や日本語の細やかなニュアンスを求める場合は依然として候補になる。
ELYZA
ELYZA-Thinking-1.0-Qwen-32B(2025): Qwen
2.5ベースの推論モデルELYZA-Shortcut-1.0-Qwen-32B(2025): SFT版ELYZA-Diffusion も研究中Swallow
Gemma-2-Llama Swallow ではGemma
2をベースに日本語強化版を出しているKarakuri
ABEJA
ABEJA-Qwen2.5-32b-Japanese-v1.0:
抽出・推論能力に特化PLaMo(Preferred Networks)
正直なところ、日本語特化モデルの多くはQwen系・Gemma系の汎用モデルが日本語にも強くなった結果、優位性を出しにくくなっている。ただし、医療・法務など特定領域ではドメイン特化のファインチューニングを受けた日本語モデルの方が安定して動くケースがあり、用途次第で評価が変わる。
モデルを動かすツールも選択肢が増えた。すべてllama.cppベースなので素の推論速度は5%以内の差、選定基準は使い勝手とエコシステムにある。
| ツール | 主要UI | 強み | 弱み |
|---|---|---|---|
| llama.cpp | CLI/コード | 最も低レベル、全制御可能、最適化の余地最大 | ビルド・パラメータ設定の知識が必要 |
| Ollama | CLI/REST API | 1コマンドで起動、OpenAI互換API、LangChainと相性◎ | デフォルトでcontext 2048、Q4_0が多い |
| LM Studio | GUI | モデル探索が楽、Hugging Faceから直接DL、MLXバックエンド(Apple) | 個人利用以外のライセンス要確認 |
実務的な使い分け:
LLAMA_CUDA=ONWSL2 + Docker + VS
Codeのような開発環境では、Ollamaをdevcontainer内で動かす構成が扱いやすい。.zshrcで最低限の設定だけしておくと良い:
export OLLAMA_CONTEXT_LENGTH=32768
export OLLAMA_FLASH_ATTENTION=1
export OLLAMA_KV_CACHE_TYPE=q8_0Ollamaのデフォルト設定で「思ったより性能が出ない」と感じる原因の多くは、コンテキストが2048に制限されていることとFlash Attentionが無効なこと。明示的に有効化するだけで体感がかなり変わる。
ここからは、ローカルLLMを実際に動かすための環境構築を、開発者向けと本番運用向けの2段階で整理する。
オンプレミスLLMの中核はGPUだ。選定時に押さえるべき軸は3つ:
用途別の推奨構成:
| 規模 | 用途 | 推奨GPU | 概算予算 |
|---|---|---|---|
| 検証/個人 | モデル比較、PoC | RTX 4060 Ti 16GB / 5060 Ti 16GB | 10〜15万円 |
| 小規模チーム | 部署内10〜30人、RAG | RTX 4090 24GB / 5090 32GB | 30〜60万円 |
| 中規模本番 | 全社100〜500人 | RTX 6000 Ada 48GB ×2 / L40S | 200〜500万円 |
| 大規模本番 | 千人超、ファインチューニング有 | NVIDIA H100/H200 ×複数枚、DGX系 | 1,000万円〜 |
CPU、メモリ、ストレージは「GPUのボトルネックにならないこと」が目安。一般にはCore i7/Ryzen 7以上、メモリ 64GB以上、NVMe SSD 1TB以上を確保しておけば困らない。
個人開発や検証段階では、Windows + WSL2 + Docker Desktop + NVIDIA Container Toolkit + Ollama の構成が最もスタンダードかつ移行性が高い。Linux本番環境とほぼ同じワークフローでローカル開発できる。
ステップ1: NVIDIA ドライバ(Windows 側)
WSL2でGPUを使う場合、WSL2の中にLinux用GPUドライバを入れてはいけない。Windows側のドライバが
/usr/lib/wsl/lib/
経由でWSL2に自動公開される仕組みになっている。NVIDIA公式から最新のWindows用Game
Ready/Studio ドライバ(545.23.06以降)を入れるだけでよい。
ステップ2: WSL2 + Ubuntu のセットアップ
PowerShellを管理者権限で開いて:
wsl --install -d Ubuntu-24.04.wslconfig
でメモリ割り当てを調整しておく(C:\Users\<username>\.wslconfig):
[wsl2]
memory=32GB
processors=8
sparseVhd=true
networkingMode=mirroredsparseVhd=true
でディスクの動的拡張を有効化、mirrored
でLAN内の他デバイスから直接アクセス可能にする。
ステップ3: GPUの確認
WSL2 のUbuntu内で:
nvidia-smiドライバとCUDAバージョンが表示されればOK。CUDA
Toolkitが別途必要な場合は、「cuda-toolkit-12-x」メタパッケージのみインストールする(cudaやcuda-driversを入れるとLinuxドライバが上書きされて壊れる)。
ステップ4: Docker と NVIDIA Container Toolkit
# NVIDIA Container Toolkit のインストール
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | \
sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
sudo apt update && sudo apt install -y nvidia-container-toolkit
sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker
# 動作確認
docker run --rm --gpus all nvidia/cuda:12.5.0-base-ubuntu22.04 nvidia-smi最後のコマンドでGPU情報が表示されれば、コンテナからGPUを使える状態になっている。
ステップ5: Ollama + Open WebUI の起動(Docker Compose)
作業ディレクトリに compose.yaml を作成:
services:
ollama:
image: ollama/ollama:latest
container_name: ollama
ports:
- "11434:11434"
volumes:
- ./ollama:/root/.ollama
environment:
- OLLAMA_FLASH_ATTENTION=1
- OLLAMA_KV_CACHE_TYPE=q8_0
- OLLAMA_CONTEXT_LENGTH=32768
deploy:
resources:
reservations:
devices:
- capabilities: [gpu]
driver: nvidia
count: all
restart: unless-stopped
open-webui:
image: ghcr.io/open-webui/open-webui:main
container_name: open-webui
ports:
- "8080:8080"
environment:
- OLLAMA_BASE_URL=http://ollama:11434
- WEBUI_AUTH=False # 本番ではTrueに
volumes:
- ./open-webui:/app/backend/data
depends_on:
- ollama
restart: unless-stopped起動とモデル取得:
docker compose up -d
docker compose exec ollama ollama pull qwen3:14b
docker compose exec ollama ollama pull gemma3:12bブラウザで http://localhost:8080 を開けばOpen
WebUIでチャットできる。ChatGPT風のUIで複数モデルの切り替えやRAGも扱える。
本番環境では、上記の構成をベースに以下を追加する:
ネットワーク設計
llm.example.local などで公開、社内CAでTLS証明書発行認証・アクセス制御
監視・ロギング
バックアップ・運用ポリシー
compose.yaml、認証設定、プロンプトテンプレート)のGit管理スケーリング
需要が増えたら、複数GPUサーバーをロードバランサで束ねる。Ollamaは複数インスタンスを並列に動かせるため、リクエストを分散すれば水平スケールが効く。より本格的には vLLM や TGI(Text Generation Inference) といったバッチ推論最適化エンジンへの移行が選択肢になる。
LLM単体では社内情報に答えられない。社内文書を活用するには RAG構成 が標準的なアプローチだ:
Difyはオープンソースかつオンプレミス対応で、RAG・エージェント・ワークフローをノーコードで構築できる。社内SEがLLMの専門知識を持たなくても運用できる現実解として、2026年現在で最も注目されている選択肢のひとつだ。
| 症状 | 原因 | 対処 |
|---|---|---|
could not select device driver "nvidia" |
Container Toolkit未設定 | sudo nvidia-ctk runtime configure --runtime=docker
実行 |
| GPU使用率が0% (CPUで推論) | VRAM不足/環境変数誤り | 小さいモデルで再試行、docker logs ollama
でログ確認 |
| トークン速度が極端に遅い | コンテキスト長が大きすぎる | OLLAMA_CONTEXT_LENGTH を業務に必要な最小値に設定 |
| モデルロードが遅い | /mnt/c/ 経由でモデル読込 |
WSL2ネイティブ領域(~/)にモデル配置 |
| CUDA out of memory | コンテキスト/バッチサイズ過大 | num_ctx を下げる、量子化レベルを上げる(Q5→Q4) |
| 規模 | 構成例 | ハードウェア初期費用 |
|---|---|---|
| 個人/小チーム | RTX 5060 Ti 16GB ワークステーション | 30〜40万円 |
| 部門サーバー | RTX 5090 + 64GB RAM サーバー | 80〜120万円 |
| 小規模本番 | RTX 6000 Ada + 128GB RAM | 200〜300万円 |
| 中規模本番 | H100 80GB + サーバー一式 | 800万円〜 |
クラウドLLM(GPT-5やClaude Opus)に月数十万〜数百万を払うチームなら、1〜3年で回収可能な投資といえる。長期的に見れば、オンプレミス構築は単なるコスト削減策ではなく、データ・AIケイパビリティを社内資産として蓄積するという戦略的意味を持つ。
ローカルLLMでは量子化(Quantization)が前提。標準的な選択肢:
| 量子化 | 品質 | サイズ目安(14Bモデル) | 推奨用途 |
|---|---|---|---|
| Q8_0 | 原モデルにほぼ同等 | 約15GB | 品質最優先、24GB GPU |
| Q6_K | 高品質 | 約12GB | バランス重視 |
| Q4_K_M | 実用上問題なし | 約9GB | コンシューマGPUの定番 |
| Q4_0 | やや劣化あり | 約8GB | 古い、Q4_K_M推奨 |
| Q3_K_M | 品質低下顕著 | 約7GB | VRAM不足の最終手段 |
注意点として、ある検証では「Qwen3.5-9bのQ8_0版がQ4_K_M版より品質スコアで下回り、速度も4分の1で、VRAMは1.5倍消費した」という報告がある。高精度量子化が必ずしも有利とは限らないため、自分の用途で実測することが重要。
VRAM帯別のおすすめ構成:
共通の指針:
推論ツール:
重要な気づき:
「ローカルLLM = 1モデルに絞る」発想を捨て、タスクごとに使い分ける設計が2026年現在の最適解だと感じている。速度が必要なら8〜9B、品質が必要なら30B-MoE、超長文なら専用モデル、というように、推論サーバー側でモデルを切り替える構成を取るアプローチが現実的だ。
個人検証から始めるなら:
部門・全社展開を狙うなら:
ローカルLLMは「完全な代替」ではなく、「クラウドLLMとの併用で使い分ける一手」として組み込むのが現実的だ。プライバシー要件の厳しいデータをローカルで処理し、複雑な推論はClaude OpusやGPT-5に投げる、というハイブリッド構成こそ、2026年の生産的なAI活用の姿だろう。
本記事は2026年5月時点の情報に基づきます。ローカルLLMの進化は速く、半年後には別のモデルが本命になっている可能性が高い点をご了承ください。