L1キャッシュ怖い

10.5K Views

April 12, 23

#programming #engineering #Software Write Combining #iwiwi sort #Radix Sort #Counting Sort #Sorting Algorithm

スライド概要

Radix Sortを並列化して高速化する話

kumagi

@kumagi

スライド一覧

分散システムとかデータベースとかロックフリーとかが好きです。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

分散システムについて語らせてくれ

engineering distributed system

kumagi 156.4K

あなたの知らないハッシュテーブルの世界

programming

kumagi 93.1K

本当は恐ろしい分散システムの話

engineering database big data distributed system fault injection

kumagi 69.6K

C言語で苦しむロックフリー入門（仮

programming

kumagi 47.8K

冬のLock-Free祭り

engineering programming

kumagi 45.4K

STMの設計と進化

programming engineering

kumagi 40.6K

各ページのテキスト

L1キャッシュ怖い 3/23 広域センサネットワークとオーバーレイに関するワークショップ @kumagi

Radix Sortとは • O(N)なソートアルゴリズム – iwiwi博士「経験上実測で一番速い」 • O(N)のメモリ領域が追加で必要になる – なので多くの場面ではMerge SortやQuick Sortが採用されたりする。 – In-PlaceなRadix Sortは最近の研究トピックの一つ • 実装上内部でCounting Sortを使うことが多い – CountingSortに関しては次ページ

Counting Sortとは 2 3 3 5 9 4 3 3 9 4 2 3 1 1 4 7 1. 数える 1 2 2 2 3 5 4 3 5 1 7 1 9 2 2. マッピング 2 2 5 3 11 2 3. 埋める 1 1 2 2 3 3 3 3 3 4 4 4 5 7 9 9

Radix Sort with Counting Sort • CountingSortは値のバリエーションが増えると死ぬ • 実用上8bit(256種)ずつCounting Sortする。 • Counting SortはStableなので下8bitから順に Sortする（Least Significant Digit first）。 • 上8bitからSortする事も可能(Most Significant Digit first)こっちはまた後で。

LSD Radix Sort • わかりやすいように10進数で 313 210 118 410 123 471 292 384 1の位でCountSort 210 410 471 292 313 123 384 118 10の位でCountSort 210 410 118 313 123 471 384 292 100の位でCountSort 123 118 210 292 313 384 410 471

LSD Radix Sort https://www.youtube.com/watch?v=kPRA0W1kECg

https://www.youtube.com/watch?v=kPRA0W1kECg

iwiwi sort • iwiwi特任助教授が過去に実装したのはこれをOpenMPで並列化したもの

iwiwi sort • std::sortの19倍ぐらい速い。この人怖い。

iwiwi sortの基本戦略 • LSD Radix Sortを並列化している – Software Write Combiningというテクニックで高速化 – 基本的に結構素直な実装 • uint64_tなら、8回のCountSortを行う – データ全体を舐めてカウント – データ全体を隣のバッファにまるっと並べ替え移動 – 上記2ステップを8回繰り返す

10.

SoftWare Write Combining • CPUが書き出すアドレスを絞って連続させて溜めてから書き出す事でWriteBufferをギチギチに埋める実装技法。 CPU キャッシュ WriteBuffer メモリ書き込み先アドレスが次々変わると WriteBufferが埋まり切る前に書き出されてリソースが無駄になる

11.

SoftWare Write Combining • CPUが書き出すアドレスを絞って連続させて溜めてから書き出す事でWriteBufferをギチギチに埋める実装技法。 CPU キャッシュ WriteBuffer WriteBufferが埋まり切る単位でしかキャッシュから書き出さないようにする。メモリデータの移動回数の総量は倍に増えてるのに何故か高速化する。L1キャッシュ怖い。

12.

SoftWare Write Combining • Intelのマニュアルに書いてある小さなSowtWareWriteCombining(SWWC)メモリを確保してそこにデータを書き出し、キャッシュラインが埋まったタイミングでしかグローバルな領域に書き出さないようにすることで性能を上げる事ができるよ。 http://www.intel.com/content/dam/www/public/us/en/documents/manuals/64-ia32-architectures-optimization-manual.pdf

http://www.intel.com/content/dam/www/public/us/en/documents/manuals/64-ia-32-architectures-optimization-manual.pdf

13.

[beta]

Radix Sort with SWWC
• Countingフェーズは変わらない
• データ移動フェーズで移動先候補が256箇所
あるのでそれを一旦ローカルの配列に書き込
んで、キャッシュライン長になったらmemcpy().
for (size_t j = 0; j < size; ++j) {
uint8_t idx = (from[j] >> i) &255);
to[offsets[idx]++] = from[j];
}

for (size_t j = 0; j < size; ++j) {
uint8_t idx = (from[j] >> i) &255);
wbuffer[idx][wbuff_n[idx]++] = from[j];
if (wbuff_n[idx] == 8) { // cache line
memcpy(&to[offsets[idx]],
&wbuffer[idx], 64);
offsets[idx] += 8;
wbuff_n[idx] = 0;
}
}

14.

in NUMA環境 • LSD RadixSortは全対全のデータ移動が CountSort毎に行われる – CPUソケットを跨る移動のペナルティは大きい – Software Write Combiningは効果が大きくなるが上のペナルティを相殺できるほどではない

15.

勝つにはどうすれば? • ソケットを跨る通信を少なく抑えたい – よろしい、MSD Radix Sortだ • 巨大データのソートを相手にするなら、舐める回数は最小限に抑えたい – よろしい、一度のイテレーションでCountingだ

16.

MSD Radix Sort • わかりやすいように10進数で 313 210 118 410 123 471 292 384 100の位でCountSort 123 118 210 292 313 384 410 471 10の位でCountSort 118 123 210 292 313 384 410 471 1の位でCountSort 118 123 210 292 313 384 410 471

17.

MSD Radix Sort • と簡単にできるわけではない。 • 上の桁で同一だった値同士でしかソートしてはならない。 – 逆にいえば同一の桁の値が1つしかなければそこで探索打ち切りできる • 個々のバケット毎に再帰的に掘り下げていく形でソートせざるを得ない

18.

MSD Radix Sort https://www.youtube.com/watch?v=kPRA0W1kECg

https://www.youtube.com/watch?v=kPRA0W1kECg

19.

最初だけMSD Radix Sort • MSDで256バケットに分けた段階でCPUソケットを跨るように設計。跨った後は1バケット毎に1CPUコアが専属で張り付いてLSD Radix Sortする • LSD Radix Sortの際にCountは一度に可能 for (int i = 0; i < 7; ++i) { for (int j = 0; j < size; ++j) { uint8_t base = i * 8; ++offsets[data[j]>> base & 255]; } // offsetsを使って並び替え } for (int j = 0; j < size; ++j) { for (size_t i = 0; i < 7; ++i) { uint8_t base = i * 8; ++l_offsets[i][data[j] >> base & 255]; } } // l_offsets[0:7]を使って7回並び替え

20.

測定 • 144コアのXeon [email protected] • 1億要素から10億要素までのuint64_t • メルセンヌツイスタで一様に初期化

21.

Prefix-Sumの並列化やら非 OpenMPなスピンバリアやらでの利得(面白くないので説明は割愛) MSDの差分・・・！！？

22.

何この差？ • キャッシュラインにいくつ溜まったら書き出したか、の差 msd8 for (size_t j = 0; j < size; ++j) { uint8_t idx = (from[j] >> i) &255); wbuffer[idx][wbuff_n[idx]++] = from[j]; if (wbuff_n[idx] == 8) { // cache line memcpy(&to[offsets[idx]], &wbuffer[idx], 64); offsets[idx] += 8; wbuff_n[idx] = 0; } } msd16 for (size_t j = 0; j < size; ++j) { uint8_t idx = (from[j] >> i) &255); wbuffer[idx][wbuff_n[idx]++] = from[j]; if (wbuff_n[idx] == 16) { // cache line memcpy(&to[offsets[idx]], &wbuffer[idx], 128); offsets[idx] += 8; wbuff_n[idx] = 0; } }

23.

考察 • 64byteを256本使うのがmsd8 – 64*256=16KiB ← つまりL1-Dの半分を使う – もう半分はソート対象データのprefetchで適当に上手く使われるのでは？（当初の思惑） • 128byteを256本使うmsd16の方が1割程速い – 128*256=32KiB ← L1-Dを全部使う – よくわからないがワンショットで読むぐらいならキャッシュを気にする事はない？

24.

25.

[beta]

考察
• msd32とmsd64が最速を奪い合う構図
– お前らL1-Dキャッシュから溢れてるやんけ！！

• 助けてVTune先生！
• VTune先生「if文が足引っ張ってるやで」
for (size_t j = 0; j < size; ++j) {
uint8_t idx = (from[j] >> i) &255);
wbuffer[idx][wbuff_n[idx]++] = from[j];

if (wbuff_n[idx] == 16) { // ここの分岐予測は1/16の確率で外れる
memcpy(&to[offsets[idx]],
&wbuffer[idx], 128);
offsets[idx] += 8;
wbuff_n[idx] = 0;
}
}

26.

kumagiさんの次回作にご期待ください！