---
title: 9Bが死んで35Bが動く — RTX 4070でQwen 3.5を全モデル検証
tags:  #ローカルllm #qwen #gpu #ollama #生成ai  
author: [井本 賢](https://www.docswell.com/user/kenimo49)
site: [Docswell](https://www.docswell.com/)
thumbnail: https://bcdn.docswell.com/page/D7Y4L4G5EM.jpg?width=480
description: Claude や ChatGPT が落ちる日に備えて、ローカルLLMを手元に。RTX 4070（VRAM 12GB）で Qwen 3.5 の5モデル（0.8B〜35B-A3B）を実際に動かし、VRAM使用量・推論速度・品質を検証しました。  12枚で、どのモデルが実用的か（スイートスポットは 2B〜4B）、9Bが動かず35B-A3B（MoE）が動く逆転現象、4BのVRAM膨張の罠とその対策までを図解します。  著者: ken imoto / kenimoto.dev
published: June 11, 26
canonical: https://www.docswell.com/s/kenimo49/KWRMMQ-qwen35-rtx4070-benchmark
---
# Page. 1

![Page Image](https://bcdn.docswell.com/page/D7Y4L4G5EM.jpg)

RTX 4070 / QWEN 3.5 / 5 MODELS
9Bが死んで、
35Bが動く
RTX 4070でQwen 3.5を全モデル検証した話
ken imoto エンジニア / Propel-lab
Qwen 3.5 × RTX 4070
kenimoto.dev

# Page. 2

![Page Image](https://bcdn.docswell.com/page/VENY4YG4J8.jpg)

| なぜローカルLLMか
クラウドが落ちた瞬間、業務も止まる。手元で動くLLMを持っておく。
クラウドAI障害が頻発
2026年、Claude / ChatGPTが数時間〜半日落ちるインシデントが何度も。全依存は危うい
ネット非依存の選択肢
代替APIより確実な「そもそもローカルで動くLLM」が現実的になってきた
Qwen 3.5 × RTX 4070
02
kenimoto.dev

# Page. 3

![Page Image](https://bcdn.docswell.com/page/Y79PQPW4E3.jpg)

| 自分のPCで動くのか？
RTX 4090は30万円超。RTX 4070（12GB）が家庭の現実解です。
RTX 4070
GPU
12GB
VRAM
32GB
RAM
Ollama
推論エンジン
この実機で、Qwen 3.5の5モデルを実際に動かした
Qwen 3.5 × RTX 4070
03
kenimoto.dev

# Page. 4

![Page Image](https://bcdn.docswell.com/page/G78DGDNV7D.jpg)

| Qwen 3.5 は8モデル
RTX 4070で動く可能性がある5つ（0.8B〜35B-A3B）を検証しました。
モデル
パラメータ
種別
RTX 4070
0.8B / 2B / 4B
~4B
Dense
✅ 検証対象
9B
9B
Dense
⚠️ 検証対象（罠あり）
35B-A3B
35B (3B active)
MoE
⚠️ 検証対象
27B / 122B-A10B
27B~122B
Dense / MoE
❌ VRAM超過
Qwen 3.5 × RTX 4070
04
kenimoto.dev

# Page. 5

![Page Image](https://bcdn.docswell.com/page/L7LMGMPRJR.jpg)

| MoEの「罠」
「3Bしか使わないMoEは軽い」――違います。
誤解
35B-A3Bは実行時に3Bだけ。だからVRAMも軽いはず
実際
全35Bの重みをメモリに保持した上で、その中から3Bを選んで計算する。12GBには収まらず、残りはRAMにoffload
Qwen 3.5 × RTX 4070
05
kenimoto.dev

# Page. 6

![Page Image](https://bcdn.docswell.com/page/4EMYQY4PEW.jpg)

| 検証結果サマリー
5モデルを、VRAM使用量・推論速度・実用判定で比較。
モデル
VRAM
速度
判定
0.8B
2.5 GB
258 tok/s
🟢 爆速
2B
4.2 GB
148 tok/s
🟢 快適
4B
5.9→11.8 GB
108→36 tok/s
🟡 注意（VRAM膨張）
9B
11.7 GB
タイムアウト
🔴 非実用
35B-A3B
11.5 GB
10.6 tok/s
🟡 待てるなら
Qwen 3.5 × RTX 4070
06
kenimoto.dev

# Page. 7

![Page Image](https://bcdn.docswell.com/page/PER989WYJ9.jpg)

| 速度はGPT-4o級
小型モデルの出力速度は、クラウドAPIに匹敵します。
0.8B ローカル
258 t/s
2B ローカル
148 t/s
GPT-4o クラウド
~155 t/s
Claude Sonnet クラウド
~85 t/s
速度は出る。問題は品質 ―― これがローカルLLMの現在地
Qwen 3.5 × RTX 4070
07
kenimoto.dev

# Page. 8

![Page Image](https://bcdn.docswell.com/page/P7XQ8QP4EX.jpg)

| 推論の壁は4B
4B未満は、計算は合っているのに結論を間違える。
モデル
推論タスク
何が起きたか
0.8B
❌ 不正解
計算は正しいが結論が逆（間に合うのに「間に合わない」）
2B
❌ 不正解
「間に合う」の意味を誤解
4B
✅ 正解
計算・日本語・論理すべて正解
9B / 35B
✅ 正解
正答するが思考が長くタイムアウト
パラメータ数が、論理的推論能力に直結する
Qwen 3.5 × RTX 4070
08
kenimoto.dev

# Page. 9

![Page Image](https://bcdn.docswell.com/page/37K9K9DP7D.jpg)

| 4Bの罠：VRAM膨張
放っておくとVRAMが倍増し、速度が1/3に落ちる。
1タスク目
5.9GB / 108t/s
→
2タスク目以降
11.8GB / 36t/s
# コンテキスト制限
--num-ctx 4096
# Thinking無効化
/no_think プレフィックス
# KVキャッシュ量子化
OLLAMA_KV_CACHE_TYPE=q8_0
Qwen 3.5 × RTX 4070
09
kenimoto.dev

# Page. 10

![Page Image](https://bcdn.docswell.com/page/LJ3WZWR4J5.jpg)

| 9Bが死んで、 35Bが動く
パラメータが多い方が動く ―― MoEが生む逆転現象。
9B (Dense)
全9Bを常にGPU上で演算。12GB VRAMでは物理的に足りず、KVキャッシュも確保できない
→ ほぼ全タスクでタイムアウト
35B-A3B (MoE)
全35Bをロードしつつ、計算は3Bのみ。VRAM超過分はRAM(32GB)にoffloadして処理
→ 10.6 tok/s で動く
Qwen 3.5 × RTX 4070
10
kenimoto.dev

# Page. 11

![Page Image](https://bcdn.docswell.com/page/8JDKRKY5EG.jpg)

| RTX 4070のスイートスポット
家庭用GPUの実用ラインは2B〜4B。
0.8B
快適 258t/s
2B
快適 148t/s
4B
注意 36t/s
9B
NG 死亡
35B-A3B
待てるなら 10t/s
リアルタイムchat
0.8B
日常アシスト
2B
コード・技術文書
4B (ctx制限)
高品質な分析
35B-A3B
Qwen 3.5 × RTX 4070
11
kenimoto.dev

# Page. 12

![Page Image](https://bcdn.docswell.com/page/VEPKWK6D78.jpg)

| 持ち帰り
ローカルLLMは「動くか」ではなく「どれがどの用途に実用的か」。
RTX 4070は、モデル選び次第で
十分に戦える。
0.8B〜2Bは何も考えず快適。速度はGPT-4o級
4Bは推論力が本物。ただしコンテキスト長の管理必須
9Bは罠。MoEの35Bの方が動く
Qwen 3.5 × RTX 4070
12
kenimoto.dev

