STMの設計と進化

STMの設計と進化 @kumagi 熊崎宏樹聴講者想定レベル：Java初級者

最初に • このスライドは後で全部アップロードします – その為、論文名などのメモ取りは不要です • 120ページほどありますが25分で話せる気がしません – 懇親会などで質問してください

Why STM? • ロックを使ったプログラムは – そもそもエンバグしがち – 再利用が難しい – マルチコアを生かしにくい • それ、Software Transactional Memoryで解決できるよ！

トランザクションとは？ • 複数の手続きをまとめて一つの不可分な手続きとして扱う事 • データベースの世界ではACID特性という用語がよく一緒に用いられる – Atomic: 手続き全体がAll-or-Nothingとなる – Consistency: トランザクション前後でデータに整合性が取れている – Isolation: コミットしていないトランザクションによる作用は外から観測できない – Durability: コミットした結果は永続化される

5.

基礎知識 • Compare And Swap関数 – sun.misc.Unsafe.compareAndSwapInt等で使える – 指定したメモリ番地に対して • 指定した値Aと等しいかを比較 • 比較した結果一致したら値Bをそのメモリ番地に書く • 成功したらTrue、失敗したらFalseを返す – の動作をアトミックに行うCPUの命令 • x86アーキテクチャだとcmpxchgというニーモニック – 以後断りなくCAS命令と呼びます

6.

STMの歴史 • CPUのキャッシュ制御プロトコルを拡張することでメモリ内でトランザクションが可能じゃん！プログラミングしやすくなっていいよ！ (Mauriceら Transactional Memory: Architectural Support for Lock-Free Data Structures 1993) • ソフトウェアでも同じような事が可能だったよ！ (Nirら Software transactional memory 1997)

7.

どう書けるのか？ • synchronizedをatomicに書き換えるだけ！ synchronized { x += 100; y -= 100; } atomic { x += 100; y -= 100; } • これでブロックに囲まれた処理全体が All-or-Nothingになる

8.

どう嬉しいのか？ • atomicで囲んだ部分は可能な限り並列して動作する → マルチコアの性能を生かせる atomic { atomic { x += 100; z += 100; y -= 100; w -= 100; } } 並列実行可能！ synchronized { synchronized { x += 100; z += 100; y -= 100; w -= 100; } } ロック競合…

9.

どう嬉しいのか？ • 操作を組み合わせ可能 – トランザクション中で他のトランザクションを実行 – STMを使ったコードを簡単に再利用可能 class BankAccount { ... atomic public void add(int diff) { credit += diff; } private int credit = 0; } 使う BankAccount x; BankAccount y; ... // xからyに100ドル送金 atomic { x.add(-100); y.add(100); }

10.

どう嬉しいのか？（実験1） • 書きやすい！ – 学生12人を6チームに分けてサーチエンジンを作らせてみた。 – 普通のC++とIntelコンパイラのSTMを使うチームで分けたところSTMのチームの方が高速でシンプルなコードを書いた（Victorら Transactional Memory versus Locks - A comperative Case Study）

11.

どう嬉しいのか？（実験2） • 書きやすい！ – 学生147人にJavaでゲームを作らせてみた – 粗粒度ロック・細粒度ロック・STMの3つのスタイルでバグの量を比較 (Christopherら Is Transactional Programming Actually Easier?)

12.

圧倒的に少ないバグ率！

13.

余談：Cliff ClickとRich Hickeyの議論 • 当時Azul SystemsのCTOだったCliff Click氏と、Clojure の作者Rich Hickey氏の有名な議論 • Cliff「デッドロックはJavaならスレッドのダンプが簡単に取れるから一番解決しやすいバグでしょ」 • Cliff「その点、STM由来のライブロックのデバッグは辛い。発生しているかも気付けない」 • Rich「それでもなおComposabilityの一点は評価する価値がある」 • Cliff「ふむ…」出典： http://www.azulsystems.com/blog/cliff/2008-05-27-clojure-stms-vs-locks

http://www.azulsystems.com/blog/cliff/2008-05-27-clojure-stms-vs-locks

14.

どう作るのか？ • 非常に原始的なSTMからスタートし、近年の研究を追いかけながら改良していく順で説明 • 言語レイヤーでコンパイラがどうサポートするのかという話は今回のスコープ外 – STM内部の設計の進化とは少し違う

15.

スタート地点 • オブジェクト毎にロックを取り付ける • トランザクションはいい感じにロックを取って動いて欲しい Javaで普通のロックを使うコードの例 class BankAccount { ... synchronized public void add(int diff) { credit += diff; } private int credit = 0; }

16.

synchronizedではなぜダメか • 内部で行われるロックを展開してみる – synchronizedなメソッドは自動でロックを取る BankAccount x; BankAccount y; ... // xからyに100ドル送金 x.add(-100); y.add(100); BankAccount x; BankAccount y; ... // xからyに100ドル送金 x.lock(); x.add(-100); x.unlock(); ←アンロックしてる y.lock(); y.add(100); y.unlock();

17.

synchronizedではなぜダメか • アンロックを行うとなぜ不味いのか // xからyに100ドル送金 x.lock(); x.add(-100); x.unlock(); y.lock(); y.add(100); y.unlock(); この隙間にもし「銀行の全口座の残高の合計を算出する処理」が挟まったら？

18.

どんなロックの取り方がいいのか？ • さっきの例だけで言えばこういう挙動になって欲しい // xからyに100ドル送金 x.lock(); x.add(-100); y.lock(); y.add(100); x.unlock(); // 最後にアンロック y.unlock(); • 2口座間だけではなく、より一般的に言うと？ • 複数のロックの正しい取り方は一般化できるのか？ → できる

19.

2 Phase Lock

20.

2 Phase Lock • 本日覚えて貰いたい用語No.1 – 2相ロックとも言う • 「複数のロックを獲得する手続きは、2つのフェーズに分かれるべきだ」というロック利用の作法（プロトコル） • 2つのフェーズ（相）とは – 成長相：ロックを獲得し続ける – 減退相：ロックを解放し続ける

21.

2 Phase Lock • 手続き全体が成長相と減退相の1つずつからなるべし獲得しているロックの数成長相減退相 1 2 時間

22.

2 Phase Lock • つまりこれはだめ成長相・減退相が2回以上ある

23.

2 Phase Lock • これを用いれば、複数のロックを取る操作が一つの不可分な操作として外部から見えるようになる – 専門用語を使うと、競合等価直列化可能なスケジュールを作成できる、と言う – なぜそうなのかという説明はデータベースの本などを（Concurrency Control and Recovery in Database Systems, Addison Wesley Publishing Company, ISBN 0-201-10715-5）

24.

Serializability • 2PLはSerializableな実行を動的に紡ぎ出すシンプルな技法 • 処理Aと処理Bを並行して実行する例処理Aと処理Bの全ての非決定実行のパターンバグるパターン A→Bの実行順と同じ結果に辿り付くパターン 2PLが許す実行パターン B→Aの実行順と同じ結果に辿り付くパターン 2PLが許す実行パターン

25.

2 Phase Lock • 利点 – 競合等価直列化可能なスケジュールを動的に組み立てる事ができる • 欠点 – 競合等価直列化可能よりも広いスケジュールは組み立てれない • 競合等価直列化可能より広い直列化可能スケジュールとしてビュー等価直列化可能などがある – デッドロックは回避してくれない

26.

2 Phase Lockを用いたSTM • オブジェクトにアクセスするときはそのデータのロックを獲得する – 既にロックを取っているなら何もしない • コミットするまでロックを手放さない • ある程度の時間ロックを獲得できなかったらデッドロックと見なして作業内容を巻き戻す – 作業を巻き戻せるように元のデータの複製をロック獲得時に作っておく

27.

2 Phase Lockを用いたSTM • STMから利用する全部のデータにロックを取り付ける X X Y Y Z Z

28.

2 Phase Lockを用いたSTM • トランザクションはロックを獲得したらオブジェクトを手元に複製する(undo-logと言う) X' X Y X Transaction1(以後T1) Y' Y Z

29.

2 Phase Lockを用いたSTM • トランザクションが無事コミットまで辿りついたらロックを開放してバックアップを消去する X' X Y X Transaction1(以後T1) Y' Y Z

30.

2 Phase Lockを用いたSTM • デッドロックした場合にはランダム時間の待機後アボートする X' X うぐぐ・・・ Y' Y X Y Z x→yの順にアクセスしたい T1 y→xの順にアクセスしたい T2

31.

2 Phase Lockを用いたSTM • デッドロックした場合にはランダム時間の待機後アボートする X' X 続行できる！ X Y' Y Y Z x→yの順にアクセスしたい T1 Abort! T2

32.

2 Phase Lockを用いたSTM • 今回のSTMの特性を書き並べると – Pessimistic Concurrency Control(悲観的ロック) – Eager Versioning (commitまで待たずに即書換え) – Eager Conflict Detection (実行中のトランザクション同士も即座に衝突) • 個々の用語は追って解説します – 今は聞き流して頂ければ

33.

2 Phase Lockを用いたSTM • ACI特性を満たす事ができる – Atomic: 全体を実行できなければアボートして書き戻すから大丈夫 – Consistency: 2PLのお陰でSerializable – Isolation: ロックのお陰で他のトランザクションからはアクセス不能 – Durabilityはそもそも揮発性メモリなので考えない • でも遅い。たくさん改良の余地がある – これから改良の試みを追ってみる

34.

データの読み出しについて • トランザクション中で読み出しにしか使わないデータは複製しても無駄 – 無駄なデータは複製しない事でオーバーヘッドを削減 – 更に言うと、読み出すだけなら複数のスレッドで共有していても良い – 複数のトランザクションが共有できるロックである Reader-Writer Lockの出番

35.

Reader-Writer-Lock • 複数のReaderが衝突しないロック • Reader-WriterやWriter-Writerは衝突する • 1word幅のメモリを用いた実装例は以下 unlock Readerの数 Writer 1 0 read lock n 0 unlock 0 0 1word read lock 0 1 ※状態遷移はすべてCompare And Swap命令で行う

36.

Read-Write-Lockで本当にいいの？ • トランザクションって本当に読むだけで終わる時と終わらない時がある – 残高がマイナスの時に限り利息を取るとか – つまりRead-LockからWrite-Lockへの昇格が必要 – Read-Lockを取っているスレッドのうち一つが Upgrade可能となるようにプロトコルを設計しよう – このUpgrade可能なロックを全部のオブジェクトに取り付ければSTMから便利に使えるはずだ

37.

Upgrade-Lock • UpgradeをしたくなったらUpgrade待ちビットを立てて他のすべてのReaderの離脱を待つ • Upgrade待ちビットが立ったらそれ以上他のスレッドはLockを取れない read lock unlock 1 0 0 n 0 0 upgrade Upgrade待ち 0 0 0 1word 0 1 0 write lock unlock n 1 0 unlock * n 0 0 1 ※状態遷移はすべてCompare And Swap命令で行う

38.

Upgrade-Lockを用いたSTM • 良さそうに見えるが実は凄く遅い – 詳細は Bratinらの McRT-STM: A High Performance Software Transactional Memory System for a Multi-Core Runtime • なぜならRead-WriteロックはCAS命令を酷使 – 普通のロックならunlockにCAS命令は不要 – CAS命令は1回40クロック程度のコストが掛かる • 競合時は更に遅くなる – メモリの書き換えでキャッシュラインが汚れる

39.

解決策：Versioned Lock • STM進化の最初のブレークスルー • オブジェクトにバージョンを付ければロック無しでも安全に読み出しができる。 – しかもキャッシュラインも汚れない • 読みだしたデータはRead-Setとしてバージョン番号と共にスレッドローカルな場所に保持する – コミット時にバージョン番号を比較すれば良い

40.

Versioned Lock • バージョンのカウントとロックの両方ができる – ついでにロック保持者のトランザクションディスクリプタへのポインタも保存できる(abortに使える) • 更新に成功してアンロックするたびバージョンが増える • 1wordでの実現例は以下 versionフラグ n 1 lock ポインタの下位 1bitは必ず0 Pointer to desc unlock n+1 1 ※状態遷移はすべてCompare And Swap命令で行う

41.

Versioned Lockで何ができるか？ • Read Snapshotができる • 値と一緒にバージョン番号を読み出しておく X Y Z v3: 120 v3: 120 比較 t v2: 42 v5: 459 比較比較 v2: 42 v5: 459 単調増加するはずのバージョン番号が変動していないのでこの赤い期間の間にはデータは書き換えられていない t t

42.

読み出し方に注意 • ロック無しでデータを読むため読み出し方には注意が必要 int v1 = x.version(); if (v1 & 1 == 0) { abort(); // 既にWriteスレッドが保持している } ここでもスナップショットが要る Object result = x.value; int v2 = x.version(); if (v1 != v2) { abort(); // valueを読んでいる間にWriteされた } return result;

43.

閑話休題：CPUのキャッシュ • CPUは高速化のため、メモリの一部を手元に複製している（これをキャッシュと呼ぶ） – 複製する単位をキャッシュラインと呼ぶ。大きさは64byteぐらい • 最近のCPUはキャッシュをコア間で共有している – 共有の際はキャッシュコヒーレントプロトコルを用いる Core1 Core2 L1キャッシュコヒーレント L2キャッシュ L1キャッシュ

44.

キャッシュコヒーレントプロトコル • IntelならMESIF、AMDならMOESIというプロトコル • キャッシュラインが取る状態名の頭文字が由来 – Modified: メモリよりもキャッシュの方が新しい – Exclusive: メモリとキャッシュが同一であり、他のコアはこのキャッシュラインを持っていない – Shared: メモリとキャッシュが同一であり、他のコアもこのキャッシュラインを複製している – Invalid: 正しいキャッシュを持っていないので読むな – Owned: 俺がメモリだ(Shared可能なModified) – Forward: Sharedのボス。アクセスする際にはこいつに伺え

45.

キャッシュコヒーレントプロトコル • MESI(F)プロトコルはModifiedなデータを他のコアが読み出す際にメモリに書き戻す • Sharedなデータを書き換える時にはInvalidation要求をブロードキャストするためトラフィックが混む書き換えた Modified 共有を要求（メモリアクセス発生） Exclusive 新規に読み出した Shared Invalidation要求が来た他のコアから貰った Invalid

46.

キャッシュを汚す事はギルティ • 他のスレッドから繰り返し読む値を書き換え続けると、キャッシュラインのステートはModifiedとSharedの間を行ったりきたりすることになる。これは激しいトラフィックを起こす。 • 更にはModifiedからSharedになる度に下層のメモリに書き込まなくてはならないうぉー！うぉー！ Core1 write ぎゃー！！ L1キャッシュ Invalidate Core2 read L1キャッシュ write L2キャッシュ

47.

キャッシュを汚す事はギルティ共有/localデータから Readした場合の速度 localデータにWrite した場合の速度共有データにWrite した場合の速度 http://www.1024cores.net/home/lock-free-algorithms/first-things-first から

48.

まったくスケールしない！！！！ http://www.1024cores.net/home/lock-free-algorithms/first-things-first から

49.

話を戻してVersioned Lock • Readする際にはバージョン番号と値のペアを読み出すだけ。書き込まない！ • コミット時にもう一度バージョン番号と値のペアをすべて読み出し直す • Read-Onlyなトランザクションであれば共有データには一切書き込みを行わない！ – Invisible Readerと呼ばれるSTM設計パターン – キャッシュラインのステートがSに固まる • Readが多いトランザクションほど高速化する！

50.

Versioned Lock • Versioned-Lockに比べてRead-Lockがどれだけ遅いかを表したグラフワークロードによってはざっくり10000倍遅い出典：McRT-STM: A High Performance Software Transactional Memory System for a Multi-Core Runtime

51.

ここまでのおさらい • 2 Phase Lockプロトコルに従えばSerializableなトランザクションが作れる – でも愚直にやると遅い • Readがデータを汚さない事に着目して、バージョン番号をRead Lock代わりに使えば高速化できる – でも 2 Phase Lockの庇護を失ってしまった • さあどんなデメリットが？

52.

2 Phase Lockの外は危険がいっぱい • Read時にロックを取らなくなったので、Readしたデータが他のトランザクションによっていつ書き換えらてもおかしくない • でもコミット時にバージョン確認によって正しいかどうか確認するから何かあったときはアボートするだけでしょ？ • 甘い！

53.

ゾンビトランザクション問題 • 以下はRead Skewと呼ばれる異常パターン • 発生する問題は Inconsistent Read問題 • 左のトランザクションは永久に衝突に気づけない – コミット時まで値の正しさを検証できない atomic { // この時点でx==y==20 int tmp_x = ReadTx(x); atomic { WriteTx(x, 10); WriteTx(y, 10); } int tmp_y = ReadTx(y); while (tmp_x != tmp_y) { // 無限ループ } }

54.

ゾンビトランザクション問題 • トランザクションとしては既に致命傷を負ってるから死ぬしかないのに、検証するタイミングまで辿り付けないから死んだ事すら自覚できないゾンビ状態の事 • 無限ループの他にも0除算やSegFaultなどヤバい事をやらかすパターンは無限にある

55.

ゾンビトランザクション回避策 • ロックを取る（2 Phase Lockに戻る） – キャッシュコヒーレントが重いから取りたくない • Incremental Validation – 値を1つReadTxで読むたびに過去に読んだ値を全て確認し直す – 確認1回はN回のメモリアクセスを行うのでN箇所読むトランザクションはO(N^2)回読み出すことになる ← 超重い

56.

ゾンビトランザクション回避策 • Global Commit Counter – コミットが成功するたびにインクリメントする共有カウンタを1つ用意する – 前回のReadTx時と今回のReadTx時でカウンタの値が変わった場合に限り過去に読んだ値を確認 • つまりカウンタを目印にIncremental Validationの検証回数を間引く – 詳細は Michaelら: Conflict Detection and Validation Strategies for Software Transactional Memory(DISC 2006)

57.

ゾンビトランザクション回避策 • (Semi-)Visible Readerに変える – Readerの存在を伝えることができればWriterを抑制できる – 例えばSkySTMはSNZI(後述)を使ってReaderの存在をスケーラブルに残している • Global Clockを使う（後述） – 効率が良いお勧めのアルゴリズム

58.

Opacity • RachidらのOn the Correctness of Transactional Memory (2008)によって提唱された「トランザクショナルメモリの正しさの基準」であるOpacity • SerializabilityやLinearizabilityなどの基準は「成功した」トランザクションのふるまいについてしか定義していなかった • Opacityは「すべてのトランザクション（Abortする物も含む）は、一貫したメモリのみを観測しなくてはならない」という基準 – 更にLinearizableであること – 更にAbortされるトランザクションによる作用は全てのトランザクションから見えない事

59.

Why Opacity? • データベースの世界で同様の問題はなかったの？ – 無かった。保護対象がデータベースに閉じていたため「一貫性の無いデータを読んだトランザクションはそのうち死ぬ」という基準で解決している – 「そもそも一貫性のないデータを読むトランザクションの発生を許さない」という基準はプログラムと密接にくっついたトランザクショナルメモリならではの問題

60.

Global Clock • STM進化の一つの大きなブレークスルー • Opacityを保証する • Transactional Locking II(TL2)がこれを利用した最初のSTM 詳細は(Diceら Transactional Lockng II (2006)) – TL2はシンプルで高速なため、最新の論文でもよく比較対象に挙がる

61.

Transactional Locking 2 • 個々のオブジェクトにVersionを付ける • それに加えて全体で単調増加するカウンタを共有する • コミットが成功するたびにカウンタを1増やす • コミット成功時に個々のオブジェクトのバージョンにそのカウンタを使う

62.

Global Clock in TL • 各トランザクションは初めにGlobal Clockを読む 5 6 2 5 Global Clock X' X Read Abort... 5 3 5 Y' Y Write! 2 < 5 => OK 5 < 5 => NG! 最後にここに書き込んだ時のGlobal Clock Commit!

63.

ゾンビ化しない • Global Clockのお陰で誤ったReadが起きない • ロック無しでread/write conflictに対策できる atomic { // この時点でx==y==20 int tmp_x = ReadTx(x); int tmp_y = ReadTx(y); while (tmp_x != tmp_y) { // 無限ループ } } Abort! atomic { WriteTx(x, 10); WriteTx(y, 10); }

64.

Lazy Versioning • Eager Versioning(これまでの手法)だとWriteは悲観的にロックを取ってしまうのでロック期間が長くなりがち • 各スレッドはコミットまでに「コミット時にやること」をローカルで整理して、コミット時だけロックを取って一気に書けばロック期間が短くなる！

65.

Transactional Locking 2 • コミット直前までロックは取らない – Readはバージョン番号をSnapshotして読む • 書き込むデータは変わりにredo-logに保存 2 redo-log 3 Y' 2 X' 3 2 X Y Z

66.

Transactional Locking 2 • コミット時に各オブジェクトのロックを取る • redo-logとバージョンを比較 • 問題なければGlobal Clockを添えて書き込み実行 2 5 redo-log 3 Y' ロック！ 2 X' 3 5 2 X Y Z

67.

パフォーマンス Fast

68.

ここまでのおさらい • パフォーマンスを得るために2 Phase Lockから足を踏み外した • するとゾンビトランザクション問題に襲われた • しかしGlobal Clockを備えたTL2によって華麗に解決 • TL2はまだ改良できるのではないか？ – TL2の改良について追っていく

69.

Bloom Filter • Redo-Logの管理に使う • Bloom Filterは集合にデータが含まれているかを高速に検知するデータ構造あいうえおおいあえう ←あいうえお検知器あかいふくいあおえうかいあおえういあおえうふいあおえういあおえうくすっぽり覆われた物は「あいうえお」のどれかである"確率が高い"

70.

Bloom Filter • 既にredo-logに書いてる物に上書きしたい時はredo-log内で上書きする必要がある – 値に書き込む度に「これってredo-logにもう入れたっけ？」と検索する必要がある – 検索の前さばきにbloom filterが便利 2 redo-log 2 Z Y 2 X' 3 Bloom Filter X YZ 3 2 X Y Z

71.

TL2の改良（いっぱいある） • Read Onlyトランザクションはコミット時にGlobal Clockに触らなくても良い • トランザクション開始時とコミット開始時で Global Clockが等しければ他のトランザクションが書き込みをしていないのでValidation不要 • 複数のデータを読む時はバッチ化することでバージョン番号→メモリ→バージョン番号の snapshootingのメモリフェンスを削減可能 – A,Bのバージョンを読んでメモリフェンスしてA,Bを読んでメモリフェンスしてA,Bのバージョンを読む

72.

TL2の改良（いっぱいある） • TinySTM – Pascal Felberら Dynamic Performance Tuning of Word-Based Software Transactional Memory(2008) – バージョン番号をN回確認するの重い – メモリアドレスを大雑把なセグメントに分けてそこにもバージョンつければ、バージョン番号のチェックを大幅にサボれる

73.

Hierarchical Locking • コミット時にオブジェクト毎のバージョン番号に加えてセグメントのバージョン番号も上書きしておく 2 3 5 1 3 4 3 1 3 4 4 6 2 1 4 5 6 7 8 9 6 3 2 4 4 6 A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 5 6 7 3 5 1 3 4 1 4 5 6 B C H I J N O P Q のバージョンが変わってないかチェックしたいなー Commit中のトランザクション 9 6

74.

TL2の改良（まだまだある） • Global Clockへの更新のキャッシュコヒーレントトラフィックがボトルネックになるかも？ – 各メタデータのClockにスレッドIDを埋め込めば Global Clockを増やさなくてよいケースがある（TL2の論文内） – 複数のトランザクションが同時に衝突なくコミットするなら同一のバージョン使ってもいいのでは（Ruiら Commit phase in timestamp-based STM（2008）） – GV4: Global ClockへのCASの失敗は無視して良いのでは？（Yossiら Anatomy of scalable software transactional memory（2009））

75.

TL2の改良（まだまだある） • GV5: Global Clockを更新したつもりになって、増やした後のGlobal ClockをObjectのバージョンとして書きこんでいけばよいのでは？ – それだとGlobal Clockより大きいバージョンのオブジェクトを読もうとするトランザクションが永久に完了できない – そんなのは一部の不幸なスレッドだけだ • GV6: 1/32の確率しかバージョンのIncrement を試みないというのでどうだ？（Yossiら Anatomy of scalable software transactional memory（2009））

76.

Fast 出典：Yossiら Anatomy of scalable software transactional memory（2009）

77.

TL2の改良（まだまだある） • TL2C: Global Clockの代わりにVector Clockを使えば大丈夫！ (Hillelら Maintaining Consistent Transactional States without a Global Clock(2008)) • 各オブジェクトに[コミットしたスレッドID, その時のスレッドのClock]をバージョンとして付与 • 全スレッドが自分以外の全スレッドの「最後に観測したクロック」を記憶 – そこと食い違ったらAbortしてクロックを上書きして再実行

78.

Fast 出典： Hillelら Maintaining Consistent Transactional States without a Global Clock(2008)

79.

ここまでのおさらい • TL2は良いSTM • そのためTL2をベースにした改良版がいくつも出てきて研究が進展した • STMの実装を分類学的に見るとどうなるのだろうか？

80.

STMの実装上の選択肢 • 直交する複数の軸がある（直交しない事もある） • これらで実存する実装を（いくらか）分類する事ができる Concurrency Control Pessimistic Optimistic Vesioning Eager Lazy Conflict Detection Eager Lazy Granularity Object Word Nest Isolation Flatten / Closed / Open Weak Strong

81.

Eager Versioning と Lazy Versioning Read X Read Write Eager Versioning Y Y' Z Write Z' Read TL2はこっち X Lazy Versioning Y Z Commit Read Write Y' Z' Y'Write Z'

82.

Lazy Versioning • 利点 – ロック保持期間が短くなるのでスケールしやすい – コミット中のスレッド同士しか競合しないのでLiveLockが発生しえない – 複数ロックがある場合でもロックを取りに行く時点で全ての欲しいロックが分かっているのでロックの獲得順序を全スレッドで統一できる • つまりデッドロックを簡単に回避できる – Abortするトランザクションが共有メモリを汚さない – Abort時にはログを消去するだけで済むので高速

83.

Lazy Versioning • 欠点 – コミットする際にredo-logの内容を全部本来の場所に書き込む必要がある • redo-logを作成するコストを考えると二度手間 – トランザクションが同じ場所に何度も書き込む手続きの場合、redo-log内を何度も検索する必要がある • 遅い – TinySTMはこれを避けるため、Eager Versioningを使っている

84.

Eager? Lazy? • どちらが良いかは場合による • データベース界隈でもどちらかが決定的に良いという事はない様子？

85.

STMの実装上の選択肢 • 直交する複数の軸がある（直交しない事もある） • これらで実存する実装を（いくらか）分類する事ができる Concurrency Control Pessimistic Optimistic Vesioning Eager Lazy Conflict Detection Eager Lazy Granularity Object Word Nest Isolation Flatten / Closed / Open Weak Strong

86.

Conflict Detection • いつ書き換えるか（Versioning）の他に、いつ衝突を検知するか（Conflict Detection）にも直交する実装上の選択肢がある – 最初にアクセスする時に検知する？(Eager) – 実行中何度も検知する？(Incremental Validation) – コミットする瞬間まで検知しない？(Lazy) • TL2はLazy Conflict Detection • 最初のTransactional MemoryはEager Conflict Detection

87.

Lazy Conflict Detection • コミット時まで衝突を検知しようとしない – LazyなVersioningと組み合わせる事が多い • 利点 – チェックののべ回数が少ない – 必要のないリトライを行わないのでスループットが出やすい • 欠点 – コミットまで走り切らないと間違いに気付けない

88.

いつ衝突を検知するか？ atomic { atomic { WriteTx(x, 1); WriteTx(x, 1); // 何かすごく重い処理 // 何かすごく重い処理 if (prob(p)) { if (prob(p)) { Abort(); Abort(); } } } } 確率pでTrueになる • Eagerな検知だと初めのWriteが衝突しあう – 適切に片方のトランザクションだけ走るように調停する必要がある – pが低い(滅多にアボートしない)の時に効率が良い

89.

いつ衝突を検知するか？ atomic { atomic { WriteTx(x, 1); WriteTx(x, 1); // 何かすごく重い処理 // 何かすごく重い処理 if (prob(p)) { if (prob(p)) { Abort(); Abort(); } } } } 確率pでTrueになる • Lazyな検知だとコミットまで衝突しない – 重い処理が複数のスレッドで走ってしまう – pが高い(よくアボートする)時にどれかが早くコミットに辿り着ける見込みがある • 下手な鉄砲数撃ちゃなんとやら

90.

いつ衝突を検知するか？ atomic { atomic { WriteTx(x, 1); WriteTx(x, 1); // 何かすごく重い処理 // 何かすごく重い処理 if (prob(p)) { if (prob(p)) { Abort(); Abort(); } } } } 確率pでTrueになる • つまりどちらかが常に良いという事はない – この場合はp次第で最適解が変わる – アボートが多い時だけLazyにしてはどうか？ AdamらTransactional Monitors for Concurrent Objects(2004) – Write-Write衝突はEagerに、Read-Write衝突はLazyに検知してはどうか？ Michaelら A Comprehensive Strategy for Contention Management in Software Transactional Memory(2009)

91.

STMの実装上の選択肢 • 直交する複数の軸がある（直交しない事もある） • これらで実存する実装を（いくらか）分類する事ができる Concurrency Control Pessimistic Optimistic Vesioning Eager Lazy Conflict Detection Eager Lazy Granularity Object Word Nest Isolation Flatten / Closed / Open Weak Strong

92.

Granularity • トランザクションで保護するデータの粒度 • これまでの説明では暗黙的にオブジェクト（C 言語的には構造体）単位にメタデータを取り付けてきた • 実際はメモリのワード単位で保護するタイプのSTMもある – Word-based STMやObject-based STMなどと呼ぶ

93.

Object-based STM • 各オブジェクトに1つずつメタデータを取り付ける • 利点 – 連続しているのでキャッシュに同時に載る – オブジェクト全体が一気に保護できる – プログラム言語の機能に取り込みやすい • 欠点 – 例えば配列をオブジェクトにすると、配列の異なる場所へのアクセスも競合アクセスとなってしまうメタデータメタデータメタデータ Object Object Object

94.

Word-based STM • ワード単位でオブジェクトを保護する • 利点 – 巨大なオブジェクト（配列）の一部のデータのみを書き換えるなどのパターンに強い – 既存の実装に外付けで機械的にトランザクション化できる • 欠点 – メタデータが多くなりがち – メタデータへのアクセスが遅くなりがち

95.

Word-based STM • メモリ番地に対するメタデータを離れた場所に持つが、トランザクションはその両方に触れる必要があるのでキャッシュのコストが2倍メモリメタデータメタデータメタデータメタデータメタデータメタデータメタデータメタデータ

96.

Word-based STM • ハッシュ関数などでN:Mの対応にする事もある • メタデータを減らし過ぎると偽共有の問題が発生するメモリメタデータメタデータメタデータメタデータメタデータ

97.

STMの実装上の選択肢 • 直交する複数の軸がある（直交しない事もある） • これらで実存する実装を（いくらか）分類する事ができる Concurrency Control Pessimistic Optimistic Vesioning Eager Lazy Conflict Detection Eager Lazy Granularity Object Word Nest Isolation Flatten / Closed / Open Weak Strong

98.

Nest • トランザクション中でのトランザクションをどう扱うか？ • Flatten: 外のトランザクションと結合する。どの時点で失敗しようと全体をロールバック • Closed: 内側のトランザクションが失敗したときは内側だけロールバック • Open: 内側だろうが外側だろうがコミットはコミットでメモリに書き込む

99.

Flattened Nesting • すべて最外周のトランザクションに合成される • 利点：実装が楽 • 欠点：アボート時に高くつく atomic { WriteTx(x, 2); atomic { WriteTx(x, 3); ... AbortTx(); } ... }

100.

Closed Nesting • 内側は内側で処理される • 利点：アボート時のペナルティが少ない • 欠点：実装が複雑で遅くなりがち atomic { WriteTx(x, 2); atomic { WriteTx(x, 3); ... AbortTx(); } ... } デフォルトでFlattenで動作し、 Abort時のリトライだけ Closedにスイッチする等の戦略が考えられる

101.

Open Nesting • どのポイントでもトランザクションのコミットは常にメモリを更新する • 利点：性能が高まりやすい • 欠点：使いどころが難しい atomic { WriteTx(x, 2); atomic { WriteTx(x, 3); ... } AbortTx(); ... } // ← ここでは x == 3 Yangら Open Nesting in Software Transactional Memory (2007)

102.

STMの実装上の選択肢 • 直交する複数の軸がある（直交しない事もある） • これらで実存する実装を（いくらか）分類する事ができる Concurrency Control Pessimistic Optimistic Vesioning Eager Lazy Conflict Detection Eager Lazy Granularity Object Word Nest Isolation Flatten / Closed / Open Weak Strong

103.

Isolation • トランザクション中で触るデータに、トランザクション外から触ったらどうなるのか？ – ロックの場合であっても迂闊に触ったら壊れるのは一緒 – でもロックなら注意深く触れば大丈夫なパターンはいくつもある – STMではどんなに注意深く触ってもダメなパターンがある（後述）

104.

ここまでのおさらい • TL2は良いSTM（大事なことなのでry • 実装上の選択肢はまだいくつもあり、TL2はその中の効率的な組み合わせの一つ • 改良はまだいくつも出てくるけれど、またどこかで罠にぶち当たるのでは？ – Isolationの問題

105.

TL2の改良（まだあるのかよ） • 以下のトランザクションを救いたい atomic { // Clock=10 atomic { // clock=10 WriteTx(x, 10); } // clock->11 loacl_x = ReadTx(x); ←バージョン番号不一致でAbort() } トランザクション開始時のクロックより新しい物を読んだからと言って、必ずしもそれがアボートするほど致命的とは限らない

106.

TL2の改良（まだあるのかよ） • Timebase Extension（Lazy Snapshot Algorithm） – Tovaldら Time-based Transactional Memory with Scalable Time Bases (2007) – Read-Setの中に矛盾さえ無ければ良いから、トランザクション開始時のタイムスタンプで辻褄が合わない時だってRead-SetをValidationし直せば助かる場合もある • 特にさっきの場合、Read-Setが空なのでValidationは必ず成功する

107.

Timebase Extensionの罠 • 以下のケースでバグる atomic { int tmp = ReadTx(x); x_published = false; x = 42; atomic { WriteTx(x_published, true); } if (ReadTx(x_published)) { ←TL2ならここでAbort()してくれた // Use tmp ←ここでゾンビするかも… } } これを Racy Publication Idiomと呼ぶ

108.

次なる怪物：Privatization Idiom atomic { WriteTx(x_is_private, true); } x = 100; atomic { if (!ReadTx(x_is_private)) { x = 200; } } • atomicがsynchronizedだったら、どう実行しても x == 100 にしかならないはず • 左のトランザクションが、xを「自分だけのもの」に変えたときに出現する問題

109.

Privatization Idiom(Eager) atomic { if (!ReadTx(x_is_private)) { x = 200; // ← 実行した } // undo_log(x) == 42 atomic { WriteTx(x_is_private, true); } x = 100; } // ★ • Eager Versioningだと★の行で右トランザクションが x_is_sharedの競合に気付いて、undo_logでxを42に書き戻してしまう(100は無かった事になる) • 左のトランザクションはxを「自分しかアクセスできない物」にしたつもりが他のトランザクションに邪魔された事になる

110.

Privatization Idiom(Lazy) atomic { WriteTx(x_is_private, true); } x = 100; atomic { if (!ReadTx(x_is_private)) { x = 200; // ← Redo-Log } } // ★ • Lazyであっても、右のトランザクションがvalidationを終えた直後(redo-log書き込み前)に左のトランザクションとx=100が一気に完走すると、右のトランザクションのRedo-Logの書き込みが最後になってしまい、 x=200になる – たぶんTL2もヤバい – 2 Phase Lockならx_is_privateのロックが食い止めてくれた

111.

そもそもトランザクショナルメモリとは？ • Privatization Idiom? Racy Publication? – STM設計者：そんな無茶な使い方しないでよ！ – STMユーザ：synchronizedの代わりに使えるって言いだしたのはSTM側じゃん！ – どっちの言い分も筋は通る • トランザクショナルメモリが真に備えるべき機能について、本当は合意できていない – モデリングが不十分

112.

モデリングとは • 実装がどのように動くかについてユーザに期待して貰いたい挙動の抽象的表現 – つまり「STMは何を約束するのか」 – どういう挙動をすると思って使えばいいのか • このモデリングがしっかりしていれば、STMを使ったコードが異なる同モデルのSTM実装上でも動くはず！ポータブル！

113.

Single Lock Atomicity（SLA） • STM初期の神話 • atomicのブロックはまるでプロセス全体で共通している単一のロックだと思って使えば良いよ、というSTMの保障 • STMの宣伝文句に使われた • 非常に明快で直観的 – synchronizedをatomicに変えれば良いだけだ！ • 実はTM過激推進派の欺瞞（大げさ） – ロックを機械的に置き換えると非常に困るケースがいくつもある

114.

Data Race x = 42; atomic { WriteTx(x, 10); } int tmp_x = x; • Lockだったらtmp_xは42か10のどちらかになるはず(少なくともJavaは) • STMだと、実装にも依るけれど鼻から悪魔が飛び出す – Single Lockだと思えって言ったのは誰だ！

115.

Victorの例 atomic { sleep(10); } atomic { WriteTx(x, 10); } • 左のスレッドが先に走ったら、右のスレッドも 10秒待たされないとおかしい！ – でも実際は右のスレッドは即座に完了する – Single Lockだと思えって言ったのは誰だ！ Victor：Against lock-based semantics for transactional memory(2008)

116.

Empty Publication atomic { int tmp = data; data = 1; atomic { /* 空 */ } ready = true; if (ready) { // use data } } • ロックならここでatomic{}の所でseq_cstなメモリフェンスが行われたはず • STMだと古いdataを読んだぞ！ – Single Lockだと思えって言ったのは(ry Vijayら Single global lock semantics in a weakly atomic STM(2008)

117.

Single Lock Atomicity... • 結構批判が多い – 本当に単一のロックだと思えるSTMは作れなくないが実装の選択肢が相当減る • けれど「ロックだと思え」というのは多くのユーザーから見て直観的なのも事実 • 落とし所は無いものか？

118.

Lock based Modeling（DLA） • Disjoint Lock Atomicity（DLA） Vijayら Single global lock semantics in a weakly atomic STM(2008) – アクセス対象のデータに個別にロックがあると考える。トランザクション開始時にアクセス対象のデータのみをすべてロックする（というモデリング） – アクセス対象のデータが被ったトランザクションだけが衝突すると思え（というモデリング） – Empty Publicationイディオムは明白にノー（データに触らないトランザクションは他のトランザクションとぶつかれない）

119.

Disjoint Lock Atomicity(DLA) • DLAはユーザーから見たらわかりやすいかも知れないけれど STM側の制約が辛い • 例えば左のassertが通るならDLA下では必ずval == 1になってくれないと困る（readyのロック取ってるんでしょ？） • でもTL2はそうならない！（Read-Lockを取らないため） ready = false; data = 0 atomic { int tmp = data; // tmp == 0 data = 1; atomic { test = ready; } assert(test == false); ready = true; val = tmp; // val == 0 }

120.

Disjoint Lock Atomicity(DLA) • 「read-lockはトランザクション開始時にすべて確保されるけれど、write-lockの獲得は実際の書き込みまで遅延するよ」と考えると下の例が動かないのは納得がいく • このモデリングを「Asynmetric Lock Atomicity」と呼ぶ ready = false; data = 0 atomic { int tmp = data; // tmp == 0 data = 1; atomic { test = ready; } assert(test == false); ready = true; val = tmp; // val == 0 }

121.

Encounter-time Lock Atomicity(ELA) • 「read-lockもwrite-lockも獲得は実際の読み込み・書き込みまで遅延する」というモデリング • Racy Publication Idiomは明白にサポートされない – つまり下のようなコードを書いたらプログラマが悪い atomic { int tmp = ReadTx(x); x_published = false; x = 42; atomic { WriteTx(x_published, true); } if (ReadTx(x_published)) { // Use tmp } }

122.

SLA->DLA->ALA->ELA • SLAはプログラマから理解しやすいし使いやすい一方でSTM側には制約が強い – STMの制約が強いとパフォーマンスも出しにくい • DLA、ALA、ELAと変わるにつれてプログラマへの制約がかかる一方でSTMの実装の選択肢が増える – プログラマの制約が強いとエンバグしやすくデバッグも辛くなる

123.

ここまでのまとめ • Publication / Privatizationの事を考えると結構頭が痛い • サポートしようとすると遅くなる • サポートを諦めてプログラマに「こういう物だ」とロックに例えて抽象化したモデルを定義しようとすると Encounter-time Lock Atomicityのようになる（割と brain-damaging） • ロックに例えようとするから不味い – 発想からしてロックから離れよう – Transactional Sequential Consistencyへ

kumagi

関連スライド

分散システムについて語らせてくれ

あなたの知らないハッシュテーブルの世界

本当は恐ろしい分散システムの話

C言語で苦しむロックフリー入門（仮

冬のLock-Free祭り

トランザクションをSerializableにする4つの方法

各ページのテキスト