GTX1080TIよお前はまだ戦える

>100 Views

June 19, 26

スライド概要

profile-image

重度のポイ活、シストレ屋です。 最近やさしい株オプションの世界にハマってます。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
9.

推論速度の実測検証: Gemma 4 & Qwen 3.6 1. 入力 (Prefill) 速度:コンテキスト長による変化 モデル 処理コンテキスト長 / 条件 プレフィル速度 Gemma 4 短文プロンプト 373.0 t/s Gemma 4 32K (3.2万トークン) 131.3 t/s Gemma 4 128K超長文 (13万トークン) ~196.9 t/s Qwen 3.6 128K超長文 (13万トークン) ~217.3 t/s 2. 生成 (Generation) 速度:MTPによる高速化 モデル (量子化 ) Gemma 4 (Q4_K_XL) Qwen 3.6 (Q3_K_XL) Qwen 3.6 (Q3_K_XL) シナリオ / 上限 プレーン MTP有効 (n_max) 向上率 日常対話 (128K) 48.9 t/s 51.0 t/s (n=1) +4.3% 日常対話 (32K) 24.8 t/s 31.4 t/s (n=2) +26.6% 128K超長文生成 ~10.4 t/s ~26.2 t/s (n=2) 約2.5倍 #niigata_5min_tech