Cache Craftiness for Fast Multicore Key-Value Storage

2.5K Views

April 12, 23

#programming #キーバリューストア #B+木 #マルチコア #並列処理 #キャッシュ効率

スライド概要

MassTreeの説明

kumagi

@kumagi

スライド一覧

分散システムとかデータベースとかロックフリーとかが好きです。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

分散システムについて語らせてくれ

engineering distributed system

kumagi 163.6K

あなたの知らないハッシュテーブルの世界

programming

kumagi 96.8K

本当は恐ろしい分散システムの話

engineering database big data distributed system fault injection

kumagi 74.4K

C言語で苦しむロックフリー入門（仮

programming

kumagi 50.9K

STMの設計と進化

programming engineering

kumagi 48.4K

冬のLock-Free祭り

engineering programming

kumagi 48.3K

各ページのテキスト

Cache Craftiness for Fast Multicore Key-Value Storage EuryoSys’12 Yandong Mao, Eddie Kohler, Robert Morris この説明資料を作った人: @kumagi

概要 • B+ treeをマルチコア環境向けに高速化した物 – キャッシュ効率に配慮したデータレイアウト – 楽観的並行制御 • 読み出しスレッドがキャッシュを汚さない • 読み出しスレッド同士は衝突しない – 挿入操作が読み出しスレッドを邪魔しない – 永続化もする • 16コアでmemcachedに匹敵する性能が出た – ちゃんと永続化しても性能が出る点が偉い

キャッシュ効率に配慮したデータレイアウト • trie of B+tree と表現するデータ構造を取る – パフォーマンスが出て、可変長キーにも対応できるナイーブなB+tree internal node leaf node struct internal_node { std::string key[15]; node* child[16]; }; key2 key1 key4 key3 key5 key6 key8 MassTree 間接参照遅い！！ cmp命令で OK！ struct internal_node { uint64_t key[15]; node* child[16]; }; key key7 多いので省略 fanout大きくし過ぎた…

キャッシュ効率に配慮したデータレイアウト • uint64_t をkeyとしたB+treeを複数階層作る – 1層目はキーの1～8byte目に対応 – 2層目はキーの9～16byte目に対応 – 中途半端な長さのkeyは0でパディングする • leaf nodeは、次の層へのポインタとその長さのkeyまでの値に対応するvalueの unionを持つ。 – ほら、trieに見えてきただろう？ 1～8byte 9～16byte 17～24byte

キャッシュ効率に配慮したデータレイアウト • 2層目で同じB+treeに入っているデータは1層目の1～8バイトが完全一致しているデータのみ • 例えば72byteのキーが挿入されたら9階立てのTrie of B+treeができる – 厳密には65byte目以降が異なる2つ目のkeyが挿入された瞬間に生成されるが詳細は次のページ • この構造を採用する事で13～19%の高速化に成功したと主張 1～8byte 9～16byte 17～24byte

データレイアウト詳細 • leaf_nodeにはkeysuffixというメンバが入っていて、その層に収まらない長さのkeyを先着1つだけ保存する事で、下の層を作るタイミングを遅らせて高速化している（2つ目が挿入されるタイミングで諦めて下の層のB+treeを作成する） • uint64_tに強制的に落としてしまうと、バイナリ値としての ’\0’ と文字列末尾の ‘\0’ が見分けをつけられないので、バイナリの長さは別で保存する • 値が削除されて要素が減ってもsplitされたものはmergeしない – 速度面とシンプルさ両方で利点があると主張 • 末尾挿入の場合に限りsplitではなく親ノードに要素数1の新border nodeを挿入する最適化を適用 – splitはデータ移動が伴うけど、新規ノードを末尾に足すだけなら移動が要らない＝既存ノードのキャッシュが汚れない&lockが要らない

中間ノード構造体 • B+ treeの繋ぎを為すデータ構造複雑なので後で話す struct interior_node { 入っているキーの総数 uint32_t version; uint8_t nkeys; キーの値、nkeysだけ使われている uint64_t keyslice[15]; node* child[16]; 次のノードへのポインタ、nkeys+1個使われている node* parent; }; 親ノードへのポインタ sizeof(interior_node) == 261 およそキャッシュライン4本分、実測上一番パフォーマンスが出た、とのこと

リーフノード構造体 • B+ treeの値を保持する構造体複雑なので後で話す struct border_node { 消されたキーの数 uint32_t version; uint8_t nremoved; n番目のキーの長さ uint8_t keylen[15]; uint64_t permutation; 複雑なので次のページで話す uint64_t keyslice[15]; n番目のキー link_or_value lv[15]; border_node* next; 次のB+treeへのポインタ、もしくは値への border_node* prev; ポインタ。どちらを意味しているかは keylen[n]の最上位ビットでスイッチ node* parent; keysuffix_t suffix; 左右及び親へのポインタ }; keysuffixのサイズはadaptivelyに決定するらしいのでそれを除くと残りのサイズは286byte、こちらもおよそキャッシュ4本分

permutation • readとinsertが衝突しても動く鍵となる機構 – 実体はノード当たり1つのuint64_t uint64_t 4bit が16個、と見做すと、0～15まで数えられるintが16個 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 keyslice[14]の順位 keyslice[0]の順位 keyslice[1]の順位 nkeys

10.

permutation • key配列の順位は8byte整数なのでatomicに書き換えられる – keysliceに加えた末尾の値を含む論理順序を更新 – 末尾への挿入は古いpermutationを参照しているReaderからは見えない c z k e d b c z k e d 5 4 3 2 6 1 0 7 keyslice[15] permutation 5 4 3 2 1 0 6 メモリバリアの後にmov a b a keyslice[15] permutation

11.

permutation • Insert操作は「最後」にpermutationを更新する • Readerは「最初」にpermutationをローカルに複製する • よってInsertの前か後のどちらかのkeyslice配列だけがReaderから見える • つまりReaderとInsertが並行しても大丈夫！ • Erase操作はpermutationを更新する – メモリは別個ガベコレへ • なお、Writer同士は普通にLockで排他する

12.

version