9Bが死んで35Bが動く — RTX 4070でQwen 3.5を全モデル検証

2.4K Views

June 11, 26

#ローカルllm #qwen #gpu #ollama #生成ai #ローカルLLM #RTX 4070 #Qwen 3.5 #GPU #推論速度

スライド概要

Claude や ChatGPT が落ちる日に備えて、ローカルLLMを手元に。RTX 4070（VRAM 12GB）で Qwen 3.5 の5モデル（0.8B〜35B-A3B）を実際に動かし、VRAM使用量・推論速度・品質を検証しました。

12枚で、どのモデルが実用的か（スイートスポットは 2B〜4B）、9Bが動かず35B-A3B（MoE）が動く逆転現象、4BのVRAM膨張の罠とその対策までを図解します。

著者: ken imoto / kenimoto.dev

井本賢

@kenimo49

スライド一覧

Propel-Lab代表。WebRTC・音声AIのエンジニアをやりながら、LLMを仕事の戦力にするための設計を研究しています。中心テーマは「ハーネス・エンジニアリング」——AIの成果はモデルそのものより、その外側の環境（制約・フィードバック・ツール）で決まる、という考え方です。これとContext Engineering、AIコードレビューの自動化などをZennとKindleで本にしてきました。ここには各本の要点をスライドにまとめて置いていきます。詳しくは kenimoto.dev へ。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

AIコードレビューを仕組み化する ― hooks・AI・人間の3層モデル

コードレビュー claudecode coderabbit hooks aiエージェント生成ai

井本賢 12.3K

コードレビュー指摘300件を3ヶ月分類したら効いていたのは2種類だけだった ─ Bug/Spec死守・残り4種類はPRから外す

コードレビューハーネスエンジニアリング aiコードレビュー開発生産性メトリクス conventionalcomments

井本賢 8.5K

cpu-moeで満足するな — Qwen 35Bをさらに速くする3フラグ実測 (RTX 4070)

ローカルllm llama.cpp rtx4070 qwen 生成ai

井本賢 3K

1Passwordが渡していない2つのもの ― マスターパスワードと、チーム共有鍵

セキュリティ 1password 暗号認証 srp パスワード管理 contextengineering

井本賢 2.6K

もうプロンプトは書かない、ループを書く ― Claude Code作者とOpenClaw作者が辿り着いた /goal と /loop

claudecode aiエージェント生成ai 自動化 llm ハーネスエンジニアリング contextengineering

井本賢 2.3K

ハーネス・エンジニアリング入門 ― なぜ同じAIで成果が変わるのか

ハーネスエンジニアリング llmo contextengineering aiエージェント生成ai claudecode

井本賢 1.8K

各ページのテキスト

RTX 4070 / QWEN 3.5 / 5 MODELS 9Bが死んで、 35Bが動く RTX 4070でQwen 3.5を全モデル検証した話 ken imoto エンジニア / Propel-lab Qwen 3.5 × RTX 4070 kenimoto.dev

| なぜローカルLLMかクラウドが落ちた瞬間、業務も止まる。手元で動くLLMを持っておく。クラウドAI障害が頻発 2026年、Claude / ChatGPTが数時間〜半日落ちるインシデントが何度も。全依存は危ういネット非依存の選択肢代替APIより確実な「そもそもローカルで動くLLM」が現実的になってきた Qwen 3.5 × RTX 4070 02 kenimoto.dev

| 自分のPCで動くのか？ RTX 4090は30万円超。RTX 4070（12GB）が家庭の現実解です。 RTX 4070 GPU 12GB VRAM 32GB RAM Ollama 推論エンジンこの実機で、Qwen 3.5の5モデルを実際に動かした Qwen 3.5 × RTX 4070 03 kenimoto.dev

| Qwen 3.5 は8モデル RTX 4070で動く可能性がある5つ（0.8B〜35B-A3B）を検証しました。モデルパラメータ種別 RTX 4070 0.8B / 2B / 4B ~4B Dense ✅ 検証対象 9B 9B Dense ⚠️ 検証対象（罠あり） 35B-A3B 35B (3B active) MoE ⚠️ 検証対象 27B / 122B-A10B 27B~122B Dense / MoE ❌ VRAM超過 Qwen 3.5 × RTX 4070 04 kenimoto.dev

| MoEの「罠」「3Bしか使わないMoEは軽い」――違います。誤解 35B-A3Bは実行時に3Bだけ。だからVRAMも軽いはず実際全35Bの重みをメモリに保持した上で、その中から3Bを選んで計算する。12GBには収まらず、残りはRAMにoffload Qwen 3.5 × RTX 4070 05 kenimoto.dev

| 検証結果サマリー 5モデルを、VRAM使用量・推論速度・実用判定で比較。モデル VRAM 速度判定 0.8B 2.5 GB 258 tok/s 🟢 爆速 2B 4.2 GB 148 tok/s 🟢 快適 4B 5.9→11.8 GB 108→36 tok/s 🟡 注意（VRAM膨張） 9B 11.7 GB タイムアウト 🔴 非実用 35B-A3B 11.5 GB 10.6 tok/s 🟡 待てるなら Qwen 3.5 × RTX 4070 06 kenimoto.dev

| 速度はGPT-4o級小型モデルの出力速度は、クラウドAPIに匹敵します。 0.8B ローカル 258 t/s 2B ローカル 148 t/s GPT-4o クラウド ~155 t/s Claude Sonnet クラウド ~85 t/s 速度は出る。問題は品質 ―― これがローカルLLMの現在地 Qwen 3.5 × RTX 4070 07 kenimoto.dev

| 推論の壁は4B 4B未満は、計算は合っているのに結論を間違える。モデル推論タスク何が起きたか 0.8B ❌ 不正解計算は正しいが結論が逆（間に合うのに「間に合わない」） 2B ❌ 不正解「間に合う」の意味を誤解 4B ✅ 正解計算・日本語・論理すべて正解 9B / 35B ✅ 正解正答するが思考が長くタイムアウトパラメータ数が、論理的推論能力に直結する Qwen 3.5 × RTX 4070 08 kenimoto.dev

| 4Bの罠：VRAM膨張放っておくとVRAMが倍増し、速度が1/3に落ちる。 1タスク目 5.9GB / 108t/s → 2タスク目以降 11.8GB / 36t/s # コンテキスト制限 --num-ctx 4096 # Thinking無効化 /no_think プレフィックス # KVキャッシュ量子化 OLLAMA_KV_CACHE_TYPE=q8_0 Qwen 3.5 × RTX 4070 09 kenimoto.dev

10.

| 9Bが死んで、 35Bが動くパラメータが多い方が動く ―― MoEが生む逆転現象。 9B (Dense) 全9Bを常にGPU上で演算。12GB VRAMでは物理的に足りず、KVキャッシュも確保できない → ほぼ全タスクでタイムアウト 35B-A3B (MoE) 全35Bをロードしつつ、計算は3Bのみ。VRAM超過分はRAM(32GB)にoffloadして処理 → 10.6 tok/s で動く Qwen 3.5 × RTX 4070 10 kenimoto.dev

11.

| RTX 4070のスイートスポット家庭用GPUの実用ラインは2B〜4B。 0.8B 快適 258t/s 2B 快適 148t/s 4B 注意 36t/s 9B NG 死亡 35B-A3B 待てるなら 10t/s リアルタイムchat 0.8B 日常アシスト 2B コード・技術文書 4B (ctx制限) 高品質な分析 35B-A3B Qwen 3.5 × RTX 4070 11 kenimoto.dev

12.

| 持ち帰りローカルLLMは「動くか」ではなく「どれがどの用途に実用的か」。 RTX 4070は、モデル選び次第で十分に戦える。 0.8B〜2Bは何も考えず快適。速度はGPT-4o級 4Bは推論力が本物。ただしコンテキスト長の管理必須 9Bは罠。MoEの35Bの方が動く Qwen 3.5 × RTX 4070 12 kenimoto.dev