9Bが死んで35Bが動く — RTX 4070でQwen 3.5を全モデル検証

>100 Views

June 11, 26

スライド概要

Claude や ChatGPT が落ちる日に備えて、ローカルLLMを手元に。RTX 4070(VRAM 12GB)で Qwen 3.5 の5モデル(0.8B〜35B-A3B)を実際に動かし、VRAM使用量・推論速度・品質を検証しました。

12枚で、どのモデルが実用的か(スイートスポットは 2B〜4B)、9Bが動かず35B-A3B(MoE)が動く逆転現象、4BのVRAM膨張の罠とその対策までを図解します。

著者: ken imoto / kenimoto.dev

profile-image

Propel-Lab代表。WebRTC・音声AIのエンジニアをやりながら、LLMを仕事の戦力にするための設計を研究しています。中心テーマは「ハーネス・エンジニアリング」——AIの成果はモデルそのものより、その外側の環境(制約・フィードバック・ツール)で決まる、という考え方です。これとContext Engineering、AIコードレビューの自動化などをZennとKindleで本にしてきました。ここには各本の要点をスライドにまとめて置いていきます。詳しくは kenimoto.dev へ。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

RTX 4070 / QWEN 3.5 / 5 MODELS 9Bが死んで、 35Bが動く RTX 4070でQwen 3.5を全モデル検証した話 ken imoto エンジニア / Propel-lab Qwen 3.5 × RTX 4070 kenimoto.dev

2.

| なぜローカルLLMか クラウドが落ちた瞬間、業務も止まる。手元で動くLLMを持っておく。 クラウドAI障害が頻発 2026年、Claude / ChatGPTが数時間〜半日落ちるインシデントが何度も。全依存は危うい ネット非依存の選択肢 代替APIより確実な「そもそもローカルで動くLLM」が現実的になってきた Qwen 3.5 × RTX 4070 02 kenimoto.dev

3.

| 自分のPCで動くのか? RTX 4090は30万円超。RTX 4070(12GB)が家庭の現実解です。 RTX 4070 GPU 12GB VRAM 32GB RAM Ollama 推論エンジン この実機で、Qwen 3.5の5モデルを実際に動かした Qwen 3.5 × RTX 4070 03 kenimoto.dev

4.

| Qwen 3.5 は8モデル RTX 4070で動く可能性がある5つ(0.8B〜35B-A3B)を検証しました。 モデル パラメータ 種別 RTX 4070 0.8B / 2B / 4B ~4B Dense ✅ 検証対象 9B 9B Dense ⚠️ 検証対象(罠あり) 35B-A3B 35B (3B active) MoE ⚠️ 検証対象 27B / 122B-A10B 27B~122B Dense / MoE ❌ VRAM超過 Qwen 3.5 × RTX 4070 04 kenimoto.dev

5.

| MoEの「罠」 「3Bしか使わないMoEは軽い」――違います。 誤解 35B-A3Bは実行時に3Bだけ。だからVRAMも軽いはず 実際 全35Bの重みをメモリに保持した上で、その中から3Bを選んで計算する。12GBには収まらず、残りはRAMにoffload Qwen 3.5 × RTX 4070 05 kenimoto.dev

6.

| 検証結果サマリー 5モデルを、VRAM使用量・推論速度・実用判定で比較。 モデル VRAM 速度 判定 0.8B 2.5 GB 258 tok/s 🟢 爆速 2B 4.2 GB 148 tok/s 🟢 快適 4B 5.9→11.8 GB 108→36 tok/s 🟡 注意(VRAM膨張) 9B 11.7 GB タイムアウト 🔴 非実用 35B-A3B 11.5 GB 10.6 tok/s 🟡 待てるなら Qwen 3.5 × RTX 4070 06 kenimoto.dev

7.

| 速度はGPT-4o級 小型モデルの出力速度は、クラウドAPIに匹敵します。 0.8B ローカル 258 t/s 2B ローカル 148 t/s GPT-4o クラウド ~155 t/s Claude Sonnet クラウド ~85 t/s 速度は出る。問題は品質 ―― これがローカルLLMの現在地 Qwen 3.5 × RTX 4070 07 kenimoto.dev

8.

| 推論の壁は4B 4B未満は、計算は合っているのに結論を間違える。 モデル 推論タスク 何が起きたか 0.8B ❌ 不正解 計算は正しいが結論が逆(間に合うのに「間に合わない」) 2B ❌ 不正解 「間に合う」の意味を誤解 4B ✅ 正解 計算・日本語・論理すべて正解 9B / 35B ✅ 正解 正答するが思考が長くタイムアウト パラメータ数が、論理的推論能力に直結する Qwen 3.5 × RTX 4070 08 kenimoto.dev

9.

| 4Bの罠:VRAM膨張 放っておくとVRAMが倍増し、速度が1/3に落ちる。 1タスク目 5.9GB / 108t/s → 2タスク目以降 11.8GB / 36t/s # コンテキスト制限 --num-ctx 4096 # Thinking無効化 /no_think プレフィックス # KVキャッシュ量子化 OLLAMA_KV_CACHE_TYPE=q8_0 Qwen 3.5 × RTX 4070 09 kenimoto.dev

10.

| 9Bが死んで、 35Bが動く パラメータが多い方が動く ―― MoEが生む逆転現象。 9B (Dense) 全9Bを常にGPU上で演算。12GB VRAMでは物理的に足りず、KVキャッシュも確保できない → ほぼ全タスクでタイムアウト 35B-A3B (MoE) 全35Bをロードしつつ、計算は3Bのみ。VRAM超過分はRAM(32GB)にoffloadして処理 → 10.6 tok/s で動く Qwen 3.5 × RTX 4070 10 kenimoto.dev

11.

| RTX 4070のスイートスポット 家庭用GPUの実用ラインは2B〜4B。 0.8B 快適 258t/s 2B 快適 148t/s 4B 注意 36t/s 9B NG 死亡 35B-A3B 待てるなら 10t/s リアルタイムchat 0.8B 日常アシスト 2B コード・技術文書 4B (ctx制限) 高品質な分析 35B-A3B Qwen 3.5 × RTX 4070 11 kenimoto.dev

12.

| 持ち帰り ローカルLLMは「動くか」ではなく「どれがどの用途に実用的か」。 RTX 4070は、モデル選び次第で 十分に戦える。 0.8B〜2Bは何も考えず快適。速度はGPT-4o級 4Bは推論力が本物。ただしコンテキスト長の管理必須 9Bは罠。MoEの35Bの方が動く Qwen 3.5 × RTX 4070 12 kenimoto.dev