An Overview of Query Optimization in Relational Systems

10.2K Views

April 12, 23

#database #programming #データベース #クエリ最適化 #System R #動的計画法 #関係代数

スライド概要

Selinger AlgorithmによるOptimizerの実装の話

kumagi

@kumagi

スライド一覧

分散システムとかデータベースとかロックフリーとかが好きです。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

分散システムについて語らせてくれ

engineering distributed system

kumagi 163.6K

あなたの知らないハッシュテーブルの世界

programming

kumagi 96.7K

本当は恐ろしい分散システムの話

engineering database big data distributed system fault injection

kumagi 74.4K

C言語で苦しむロックフリー入門（仮

programming

kumagi 50.8K

冬のLock-Free祭り

engineering programming

kumagi 48.3K

STMの設計と進化

programming engineering

kumagi 48.2K

各ページのテキスト

An Overview of Query Optimization in Relational Systems CMUデータベース輪読会資料作者: @kumagi

Abstract ● ● ● 1998年に書かれた比較的古い論文とはいえそこより古いOptimizerの研究に関して重要なところをかいつまんでいる「技術的な正確性より説明しやすさに重きを置いたよ」と序論で堂々と書いてて好感が持てる

位置づけ ● VLDB1979 Query Processing in a Relational Database Management System ○ ○ ○ ● Ingresや古いOracle(1990年代まで)で使われた古い Optimizer 適用可能なルールをひたすら適用しまくる戦略 (Predicate Push-DownとJOINの左右の決定が典型的) Andyの講義によると Oracleで働いていた人曰くコードは洗練されていたがシステム内最大のコンポーネントであり Cで書かれた巨大な if-then-elseの塊は悪夢でメンテ不能であった SIGMOD1979 Access path selection in a relational database management system ○ ○ RDBMS黎明期のIBMの中で発明されたオプティマイザ。 System Rや初期のDB2やMySQL, PostgreSQL, SQLiteは基本的にこれを使っている Left-Deepなプランだけを探す事に専念すれば圧倒的にプラン探索領域が減らせるよねという気づきがある

Optimizerは何故重要なのか単一のクエリに対しても複数の関係代数表現がある一つの関係代数表現に対しても複数の実行戦略がある（JOINの種類とか）戦略によって計算にかかるコストが圧倒的に変わる一番高速な実行プランを高速かつ高精度に見つけたい

System-R の Optimizer 概要 ● 探索空間を狭めるためLeft-DeepなJoin順序しか考えない事にした ○ ● ● ● Bush Joinは捨てた DPを用いて探索に掛かるコストをO(N!)をO(N*2^{N-1})まで減らした順序情報を探索空間に組み入れて、Sort-Merge Joinが効くケースをちゃんと見つけられるようにした(Interesting Order) コストの見積もりは割とカジュアルにやっているように見える

Left-Deep Join A⨝B⨝C⨝Dを考える ⨝ ⨝ D ⨝ C ⨝ ⨝ D ⨝ B Left Deep Tree A Bushy Tree A B C C A ⨝ D A ⨝ C B ...… でN!通り D ⨝ ⨝ ⨝ ⨝ A B ⨝ ⨝ B ⨝ C ⨝ D A ⨝ D C ⨝ B ...… でN!通り

Left-Deep Join A⨝B⨝C⨝Dを考える ⨝ ⨝ D ⨝ C ⨝ ⨝ D ⨝ B Left Deep Tree A Bushy Tree B A C A ...… でN!通り D ⨝ ⨝ ⨝ ⨝ ⨝ B ⨝ C Bushy TreeはMaterializationが必須になるが速くなる事もある。 ⨝ ⨝ ⨝ ⨝ ⨝ ⨝ ...… でN!通りの方は無視 …が切り捨てる。 A B C D A C B D A D C B

DPを用いた網羅的探索仮説：最適プランの部分プランもまた最適つまりテーブル数N-1での最適解はNテーブルでの部分最適解として利用できる最適解を探索 ⨝ ⨝ ⨝ ⨝ ⨝ ⨝ ⨝ ⨝ ⨝ ⨝ ⨝ ⨝ ⨝ ⨝ ⨝ ⨝ ⨝ ⨝ ⨝ ・・・再利用再利用再利用

DPを用いた網羅的探索 N行あるテーブルAとM行あるテーブルBをJOINする場合（In-Memory) ● Nested Loop Join: O(N*M) ○ ● Sort Merge Join: O(NlogN+MlogM) ○ ● Aの全行について Bから探索する AとBをそれぞれSortしてから編み上げる Hash Join: O(N+M) ○ BをIDをKeyに辞書に放り込んでから Aの各行について辞書を引く

10.

DPを用いた網羅的探索まずN個のJoin対象テーブルの中の2テーブルの結合を考える。NC2 通り全部の2テーブル結合に対して3テーブル目を結合させる。N-2通り結合させていないテーブルが無くなるまで上の操作を繰り返す。 j+1テーブルの最適なJOIN戦略はjテーブルの最適解それぞれに1テーブルを加えた中での最適解。

11.

DPを用いた網羅的探索下からj段目のステップではj個のテーブルがJOINされておりNCj個の候補がある。 j+1段目の各部分最適解はj番目の最適解に1つテーブルを足す操作を網羅的に試す試した中で一番コストが低い物がそこのJOIN結果の最適解 4段目 3段目 2段目 1段目

12.

DPを用いた網羅的探索下からj段目のステップではj個のテーブルがJOINされておりNCj個の候補がある。 j+1段目の各部分最適解はj番目の最適解に1つテーブルを足す操作を網羅的に試す試した中で一番コストが低い物がそこのJOIN結果の最適解 = MIN(JOIN( , ), JOIN( , ), JOIN( , ))

13.

DPを用いた網羅的探索（補足） ● ● ● JOINすべきキーが存在しないテーブルの組み合わせも一応全部見積もる（直積は機械的にあらゆる2テーブルで算出できる）が出力行が大きいので基本的に切り捨てる事になる単一テーブルの読み出しであってもPush-DownしてきたSelectionによって Full-Scan/Index-Scan/Index-Only-Scanなど最適解が変わるのでDPは1テーブルから始まるテーブル結合コストは統計情報により見積もられ、結合済みテーブルの統計情報も統計情報によって推定する ○ ○ 値の分布が独立していないので推定値はその分だけズレる例: 都道府県ごとに男女比に極端な差はないが年齢分布は東京が明らかに若い、など

14.

統計情報 ● データ全部をK個のバケットに等分するequi-depth histogramをよく使う ○ ● ● Kが大きいほど高精度かつ容量や計算コストを食うそのバケット内でのヒット件数に対して（バケット内では一様分布しているという仮説の上で）当たりを付けられる亜種・改善などの議論については別の論文参照 equi-width histogram equi-depth histogram

15.

統計情報 x=70を満たす件数は 50〜74 の25の幅に120件のデータがある所から推定して 120 / 25で 4.8件！ equi-width histogram x=70を満たす件数は 63〜70 の8の幅に68件のデータがある所から推定して 8.6件！ equi-depth histogram

16.

統計情報 2次元ヒストグラムを用意できれば行選択後のテーブルに対してもそれなりの精度で見積もりができる N列あるテーブルに対して網羅的にやるとNC2個の2次元ヒストグラムを用意することになって容量・計算量的にだいぶ辛い複合キーによるインデックスに対してはヒストグラムを用意すると便利なことが経験上多いのでそれぐらいに限定してN次元ヒストグラムを持つ実装などがあり得る

17.

DPを用いた網羅的探索クエリ：Taroさんが所有する車のブランド名を列挙 SELECT brand.name FROM owner, car, brand WHERE owner.name = "Taro" AND car.owner_id = owner.id AND car.brand_id = brand.id 1万行 100万行 owner 100行 car brand

18.

DPを用いた網羅的探索クエリ：Taroさんが所有する車のブランド名を列挙 SELECT brand.name FROM owner, car, brand WHERE owner.name = "Taro" AND car.owner_id = owner.id AND car.brand_id = brand.id indexで探す。cardinalityから見て出力は推定 1行 1行 owner owner_idとbrand_idのペアを全通り吐き出す推定100万行 100万行 brand_idとnameのペアを全通り吐き出す推定100行 100行 car brand

19.

DPを用いた網羅的探索クエリ：Taroさんが所有する車のブランド名を列挙 SELECT brand.name FROM owner, car, brand WHERE owner.name = "Taro" AND car.owner_id = owner.id AND car.brand_id = brand.id 1行 owner 100万行 100行 car brand

20.

DPを用いた網羅的探索クエリ：Taroさんが所有する車のブランド名を列挙 SELECT brand.name FROM owner, car, brand WHERE owner.name = "Taro" AND car.owner_id = owner.id AND car.brand_id = brand.id carの中でowner.idにヒットする行を探して100万行読む。計算コスト100万行分推定出力1行コスト100万出力1行直接JOINできないので直積を求めるしかない計算コスト100行分推定出力100行コスト100 出力100行 1行 owner HJ使って1000100行分の計算コスト出力されるのは推定 100万行コスト1000100 出力100万行 100万行 100行 car brand

21.

DPを用いた網羅的探索クエリ：Taroさんが所有する車のブランド名を列挙 SELECT brand.name FROM owner, car, brand WHERE owner.name = "Taro" AND car.owner_id = owner.id AND car.brand_id = brand.id car⨝brandの100万行を走査して owner.idと一致するcar.owner_id を見つける。計算コスト100万推定出力1行合計コスト2000100 コスト100万出力1行コスト100 出力100行 1行 owner コスト1000100 出力100万行 100万行 100行 car brand

22.

DPを用いた網羅的探索クエリ：Taroさんが所有する車のブランド名を列挙 SELECT brand.name FROM owner, car, brand WHERE owner.name = "Taro" AND car.owner_id = owner.id AND car.brand_id = brand.id 100行のowner⨝brandから owner.idとbrand.idの組が carテーブルの中にあるものをHJで探す。計算コスト1000100 推定出力1行合計コスト1000200 コスト100万出力1行コスト100 出力100行 1行 owner コスト1000100 出力100万行 100万行 100行 car brand

23.

DPを用いた網羅的探索クエリ：Taroさんが所有する車のブランド名を列挙 SELECT brand.name FROM owner, car, brand WHERE owner.name = "Taro" AND car.owner_id = owner.id AND car.brand_id = brand.id brandテーブルの中で car.idを1 行NLJで探すだけ計算コスト100行分推定出力1行合計コスト1000100 コスト100万出力1行コスト100 出力100行 1行 owner コスト1000100 出力100万行 100万行 100行 car brand

24.

DPを用いた網羅的探索クエリ：Taroさんが所有する車のブランド名を列挙 SELECT brand.name FROM owner, car, brand WHERE owner.name = "Taro" AND car.owner_id = owner.id AND car.brand_id = brand.id つまりこのプランが一番安い合計コスト1000100 コスト100万出力1行 1行 owner 100万行 100行 car brand

25.

探索のtips ● Outer Joinは交換法則が成り立たないのでそれを壊さない範囲で列挙する ○ ● 結合法則は成り立つので探索空間が無くなるわけではない Aggregation操作は基本的に一気に行数を減らせられるのでできる限り push-downしたほうが良い ○ ただのGroup By操作が2回のaggregationになる場合もある

26.

多段Aggregation push-down クエリ：部署ごとに売上の合計値を求めたい SELECT division.name, SUM(product.sales) FROM product, division WHERE product.div_id = division.id GROUP BY division.name 先に製品毎の合計値を求めておいてから、JOIN後にdivison(複数のproductを持つ)毎の合計値を division.id SUM(sales) product⨝division product.id SUM(sales) product division

27.

Interesting Order Sort-Merge Joinを同一キーで複数回行える場合などはHashJoinの方が計算コストが低くてもトータルではコストが低い場合があるつまり2テーブルのJoinコストの中で最適でない解が3テーブルのJoinコストの中での部分最適解である可能性が捨てきれない列が順序付けされている場合は同じテーブル同士のJoin結果であっても別の結果として取り扱う事にする＝あらゆる列でsortされた場合のコストもDPの対象として別々にトラックするしかし複合キーによるsortを考慮に入れると列の数の階乗だけ選択肢があるので多分 System-Rは複合キーまでは検討しないと思う

28.

Interesting Order Andy の授業の動画では「System-Rは段階ごとに最適解を探すので局所最適に落ちてしまい個別のSM JOINを用いた場合の最適解を見つけることができない」と言っているように見える。動画のコメントでもAndyは「the original System R dynamic programming algorithm only considers join orderings. The physical sort order of the data is not part of that search.」と言っている。しかしこの論文では明らかにInteresting OrderはSystem-Rの一部として書かれている。

29.

Interesting Order with DP 「特定の列で整列されたテーブル」を別のターゲットとして扱う下から順にテーブルを埋めていくが SortMerge Joinなどで順序が違う物は別の物として DP表を埋める NoOrder .b_id .a_id 1000100 ∞ 1000100 NA 100 .name ∞ sort NA ∞ .score 2441231 sort 1000000 100 .t_id ∞ NA ∞ 21233242 ∞ ∞ NA ∞ ∞ 223 NA 284 NA ∞ in e jo ∞ g r me 1000000 NA NA ∞ NA NA 1 1 NA NA NA 1

30.

Optimizer Generator System-Rが実装しているわけではないが探索空間を拡張可能にする発展形 ● Starburst ○ ○ ○ ● IBMからSystem-Rの後継として出したシステムで、 Bottom-Up探索をルールベースで行う論理的な代数表現を QueryGraphModel(QGM)の形で表し、QGMを入力してQGMを出力するrule を{書き換え条件 : 書き換え先}の形でメンテナンスすればいい ■ コンパイラに似てる充分最適化した QGMを物理プランに書き換える Volcano/Cascade ○ ○ ○ ○ ○ Top-Downで部分解を求めていく同じテーブルの組み合わせに対して再度同じものを算出しなくていいようにメモ化を行う ■ fib(x)をメモ化再帰でやるイメージ明らかに筋悪な方向には早期に探索を打ち切れる（枝刈り）論理→論理プラン論理→物理プランのルールの羅列だけを管理すればいい Physical Propertyを用いてSM Joinの活用もヨシ！

31.

Cascade Optimizer ● gporca ○ ● Cockroach DB ○ ○ ● GreenPlumのOptimizerだけ切り出したプロジェクト、 C++のマクロでルールを記述する Goで書かれた分散 RDBMS opt形式で書かれた DSLで書き換えルールを列挙してて、これで見つけていく ■ optファイルを増やすだけでオプティマイザが賢くなる！ Peloton ○ ○ ○ Andy Pavlo先生のところで作ってる RDBMS C++でCascadeを実装しているとのことコードレベルでは追っていないが説明には Columbiaに基づいて実装したと書いている