Rによる繰返し処理の並列化

12.2K Views

December 19, 23

#r #並列化 #R #foreach #doParallel #並列処理 #アムダールの法則

スライド概要

forやapplyによる繰り返し処理を、パッケージforeachとdoParallelにより並列化する方法の解説

wada, kazumi

@kazwd2008

スライド一覧

Rユーザーです。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

多変量外れ値の検出パッケージについて

r 外れ値検出

wada, kazumi 3.6K

補完のためのロバストな比率モデルの一般化

r 外れ値検出補完

wada, kazumi 399

猫でも分かるUnreal Engineの学び方 - 超初心者向け編 - 2023 v1.0

ue4 ue5 ue-beginner

エピックゲームズジャパン 1.7M

Unreal Engine5 Lumenの仕組みと肝心なところ

ue5 ue-rendering ue-lumen

エピックゲームズジャパン 1.4M

UE5レンダリングフロー総おさらい(2024) 基礎編！[CEDEC+KYUSHU 2024]

ue5 unreal engine ue-rendering

エピックゲームズジャパン 1.2M

Meta XR SDK(V66-74)でQuestアプリを開発

spatial anchor unity quest pro shaperecognizeractivatestate oculus integration transformfeaturestateprovider building blocks transformrecognizeractivestate ovrsemanticclassification jointdeltaprovider ovrscenemanager jointvelocityactivestate オクルージョン sequenceactivestate scene manager ambisonic depth api metaxraudiosource playerlocomotor meta xr sdk quest3 ovrplayercontroller マルチモーダル meta haptics studio direct touch ui meta xr haptics sdk ovrspatialanchor ovrtrackedkeyboard hapticclipplayer fingerfeaturestateprovider hapticclip ワイドモーションモード wmm mruk mr utility kit voice sdk jointrotationactivestate meta horizon os ui set asw application spacewarp ovr metrics tool unityscene manager colocation discovery コロケーション mx ink passthrough camera api hand tracking microgestures webcamtexturemanager passthroughcamerautils cameraviewermanager hand pose selector recorder

あうぜん 1.2M

各ページのテキスト

統計環境Rによる繰返しの並列処理－foreach & doParallel－主にWindows機で動作確認した、1台のPC上でソケットを利用してメモリ共有型でコアを並列化する方法ですが、他のOSでも動くと思います 2014/3/10

foreachパッケージ • 単体で使用しても繰返し処理を高速化する。 • snowやparallelなどの並列処理パッケージと組み合わせると繰返これが問題! し処理を並列化できる。 • forループとの違い出力は1つだけ 2

foreach: 出力制御のコツ制約: 出力は1つだけ • アウトプットの構造や書き出される順番を理解し、必要があれば後から自分で配列化などを施す • 複数の出力も順番を間違えなければ扱える 3

例) 回帰パラメータ算出実験乱数データから回帰係数を算出するモンテカルロ実験を3回だけ繰返す ‐ xは一様乱数で三変量 ‐ yは次の回帰モデルに従い、自由度3 のt分布に従う乱数を誤差項として付与 y=10+5x1+2x2+3x3 自由度の小さいt分布は正規分布よりも裾が長いので、ちょっと荒れてる感じのデータになります。結果、そのデータから回帰パラメータを推計したとき、真の値と差異が出やすいです。 4

40 60 y1 80 100 目的変数 y1 データのイメージ 2 4 6 x1[, 1] 8 第一説明変数 x1 5

並列化の準備としてまずforeachの結果の戻し方を確認します実験: 1A, 1B, 1C 6

[beta]

例) 回帰パラメータ算出実験(1A)
注) まだパラレル化はしていません

rm(list=ls(all=TRUE))# ワークスペースのクリア
require(foreach); require(MASS)
# for rt
set.seed(15)
theta1 <- c(10, 5, 2, 3) # 回帰パラメータ "y=10+5x1+2x2+3x3"
ot1 <- foreach(i=1:3, .combine=c) %do% {
x1 <- matrix(runif(300, min=1, max=10), nc=3, nr=100) # xの値
x2 <- cbind(rep(1, dim(x1)[1]), x1) # 1列目に要素が全て1の列を付与
y1 <- x2 %*% theta1 + rt(100, df=3) # yは推計値＋残差
lm(y1 ~ x1)$coeff
}
ot1
is.vector(ot1)
7

[beta]

例) 回帰パラメータ算出実験(1B)
rm(list=ls(all=TRUE))# ワークスペースのクリア
require(foreach); require(MASS)
# for rt
set.seed(15)
theta1 <- c(10, 5, 2, 3) # 回帰パラメータ "y=10+5x1+2x2+3x3"
ot2 <- foreach(i=1:3, .combine="cbind") %do% {
x1 <- matrix(runif(300, min=1, max=10), nc=3, nr=100) # xの値
x2 <- cbind(rep(1, dim(x1)[1]), x1) # 1列目に要素が全て1の列を
付与
y1 <- x2 %*% theta1 + rt(100, df=3) # yは推計値＋残差
lm(y1 ~ x1)$coeff
}
ot2
is.matrix(ot2)
8

[beta]

例) 回帰パラメータ算出実験(1C)
rm(list=ls(all=TRUE))# ワークスペースのクリア
require(foreach); require(MASS)
# for rt
set.seed(15)
theta1 <- c(10, 5, 2, 3) # 回帰パラメータ "y=10+5x1+2x2+3x3"
ot3 <- foreach(i=1:3, .combine="rbind") %do% {
x1 <- matrix(runif(300, min=1, max=10), nc=3, nr=100) # xの値
x2 <- cbind(rep(1, dim(x1)[1]), x1) # 1列目に要素が全て1の列を
付与
y1 <- x2 %*% theta1 + rt(100, df=3) # yは推計値＋残差
lm(y1 ~ x1)$coeff
}
ot3
is.list(ot3)
9

10.

結果出力の違い > ot1 (Intercept) x11 x12 x13 (Intercept) x11 10.899300 4.914961 1.978661 2.960806 10.562035 5.005228 x12 x13 (Intercept) x11 x12 x13 1.962990 2.939047 9.786081 5.035381 1.947302 3.102226 > is.vector(ot1) [1] TRUE .combine=c > ot2 result.1 result.2 result.3 (Intercept) 10.899300 10.562035 9.786081 x11 4.914961 5.005228 5.035381 x12 1.978661 1.962990 1.947302 x13 2.960806 2.939047 3.102226 > is.matrix(ot2) > ot3 [1] TRUE ベクトルだったり行列だったりするけど出力は一つだけ .combine="cbind" .combine="rbind" (Intercept) x11 x12 x13 result.1 10.899300 4.914961 1.978661 2.960806 result.2 10.562035 5.005228 1.962990 2.939047 result.3 9.786081 5.035381 1.947302 3.102226 > is.matrix(ot3) [1] TRUE 10

11.

doParallelパッケージを使って同じ処理を並列化してみます実験: 1A → 2 11

12.

[beta]

例) 回帰パラメータ算出実験(2)
rm(list=ls(all=TRUE))
# ワークスペースのクリア
s_time <- Sys.time()
# 開始時間記録のための呪文
require(foreach); require(MASS)
# for rt
require(doParallel)
type <- if (exists("mcfork", mode="function")) "FORK" else "PSOCK"
cores <- getOption("mc.cores", detectCores())
cl <- makeCluster(cores, type=type) # コア数を自動検出
registerDoParallel(cl)
# コア数で並列化
set.seed(15)
theta1 <- c(10, 5, 2, 3) # 回帰パラメータ "y=10+5x1+2x2+3x3"
ot1 <- foreach(i=1:3, .combine=c) %dopar% {
x1 <- matrix(runif(300, min=1, max=10), nc=3, nr=100) # xの値
x2 <- cbind(rep(1, dim(x1)[1]), x1) # 1列目に要素が全て1の列を付与
y1 <- x2 %*% theta1 + rt(100, df=3) # yは推計値＋残差
lm(y1 ~ x1)$coeff
}
stopCluster(cl)
# 並列化終了のための呪文
e_time <- Sys.time()
# 終了時間記録のための呪文
ot1
12

13.

コア毎に違う乱数が割り当てられるために結果は変わる実験1Aの結果(並列化前) > ot1 (Intercept) 10.899300 x12 1.962990 x11 x12 x13 (Intercept) x11 4.914961 1.978661 2.960806 10.562035 5.005228 x13 (Intercept) x11 x12 x13 2.939047 9.786081 5.035381 1.947302 3.102226 実験2の結果(並列化後) > ot1 (Intercept) 9.495911 x12 1.905662 x11 x12 x13 (Intercept) x11 4.987828 2.035046 3.063866 10.212789 x13 (Intercept) x11 x12 x13 3.046415 8.409125 5.133967 2.103635 5.040721 3.064619 13

14.

で、もちろん速くなるよね？実験1Aの結果(並列化前) > e_time - s_time Time difference of 0.5630572 secs 実験2の結果(並列化後) > e_time - s_time Time difference of 10.46505 secs 並列化前が圧倒的に速い! 実験2のコードの上から二行目と下から二行目の時間測定の呪文を実験1Aのコードにも書き加えて測定しましたどんな処理をどのくらいの量だけ並列化するかによります。この例もそうですが、基本的に遅くなると考えた方が良いです。ご利用は慎重に。 14

15.

どうして並列化で遅くなるの? 並列化前 I/O 並列化不能部分並列化可能な部分 ¼に並列化後並列化のための処理リモワルフトハンザ遅くなる犯人! 前の処理の結果に依存する処理は並列化できない一方、並列化のためには新たな処理(パッケージのロードやコア間通信など)が必要となる処理の依存関係のない並列化可能な部分の処理が、例えば4コアで75% 時間を短縮できたとしても、全体のなかでその効率化が新たに必要になる処理時間を上回る分量でなければトータルで速くはならない 15

16.

アムダールの法則 1 並列化の効果: 1 − 𝑃 + 𝑃/𝑆 P: 並列化可能部分の割合 S: コアの数並列化可能な部分が全体の50%ならば、どんなにコア数の多い高価なPCで並列化しても、理論値でさえ2倍の速度が限界です。実測はもっとずっと効率悪いです。 16

17.

TO DO or NOT TO DO 自分一人で作業した方が早いか、そのへんの人を何人か連れて来て仕事を説明して作業を分けてでも手伝ってもらった方が早く終わるような作業内容なのかを見極める。 • 一つずつ順を追って処理しなければいけない仕事ならば、淡々と一人で片づけるしかない。 • 分業可能な作業であれば、作業の説明や仕分けやまとめなどの新たな手間が増えるのと、分業の効率を天秤にかけて判断する。並列処理は、分業させるためのコード書きも大変なので、それに見合う効率化が見込めるときにだけ役立つ技なのです。 17

18.

具体的な判断手順 1. コードを精査し、並列処理できる部分とそうでない部分を切り分けて、並列処理部分は極力少ない塊にまとめる 2. 並列処理できる部分とそうでない部分を別々に時間計測する 3. 並列処理できる部分が、全体の何パーセントになるのかを計算し、アムダールの法則のグラフで理論効率を確認 4. 実測効率は理論効率よりもはるかに悪いことを覚悟するそれでもやりたければ並列化コードを書く 5. 大量データを取扱う場合、この並列化はメモリ共有型なので、作業を切り分ける大きさに留意する大きく切れば早いがメモリ不足の危険があり、小さく切りすぎれば遅くなるまずシングルコア版を作成し、そこから並列化版を作ると良いです。両者の結果が変わらないことが確認できれば安心です。 18

19.

行列要素の並び順: Rとfortranは縦並び > x0 <- 1:100 > (x1 <- matrix(x0, nc=10)) [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10] [1,] 1 11 21 31 41 51 61 71 81 91 [2,] 2 12 22 32 42 52 62 72 82 92 [3,] 3 13 23 33 43 53 63 73 83 93 [4,] 4 14 24 34 44 54 64 74 84 94 [5,] 5 15 25 35 45 55 65 75 85 95 [6,] 6 16 26 36 46 56 66 76 86 96 [7,] 7 17 27 37 47 57 67 77 87 97 [8,] 8 18 28 38 48 58 68 78 88 98 [9,] 9 19 29 39 49 59 69 79 89 99 [10,] 10 20 30 40 50 60 70 80 90 100 > x1[21] [1] 21 ちなみにCは横並びだそうです。 19

20.

配列要素の場合は? > x0 <- 1:1000 > (x1 <- array(x0, c(10,10,10))) ,,1 [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10] [1,] 1 11 21 31 41 51 61 71 81 91 [2,] 2 12 22 32 42 52 62 72 82 92 [3,] 3 13 23 33 43 53 63 73 83 93 [4,] 4 14 24 34 44 54 64 74 84 94 [5,] 5 15 25 35 45 55 65 75 85 95 [6,] 6 16 26 36 46 56 66 76 86 96 [7,] 7 17 27 37 47 57 67 77 87 97 [8,] 8 18 28 38 48 58 68 78 88 98 [9,] 9 19 29 39 49 59 69 79 89 99 [10,] 10 20 30 40 50 60 70 80 90 100 ,,2 20

21.

なぜ並び順が重要? • 変数一つの出力の中に複数の情報を詰め込む場合、どの情報がどういう順番に入っているかわかっていないと使えない • 高速なコードのために、極力キャッシュミスが起こりにくいような処理を心がける CPU レジスタ高速高価小容量キャッシュメモリディスク低速安価大容量参考: 「チューニング技法虎の巻」 https://www.hpci-office.jp/pages /407 21

https://www.hpci-office.jp/pages/407

22.

並列化によるシミュレーション実験: 2 → 3 22

23.

[beta]

例) 回帰パラメータ算出実験(3)

rm(list=ls(all=TRUE))
# ワークスペースのクリア
s_time <- Sys.time()
# 開始時間記録のための呪文
require(foreach); require(MASS)
# for rt
require(doParallel)
type <- if (exists("mcfork", mode="function")) "FORK" else "PSOCK"
cores <- getOption("mc.cores", detectCores())
cl <- makeCluster(cores, type=type)
# コア数を自動検出
registerDoParallel(cl)
# コア数で並列化
set.seed(15)
theta1 <- c(10, 5, 2, 3) # 回帰パラメータ "y=10+5x1+2x2+3x3"
ot1 <- foreach(i=1:4, .combine=c) %dopar% {
# コア数の倍数が効率良いです
cf2 <- matrix(NA, nc=2500, nr=4) # 縦に並べないとわけがわからなくなる!!!
for (j in 1:2500) {
x1 <- matrix(runif(300, min=1, max=10), nc=3, nr=100) # xの値
x2 <- cbind(rep(1, dim(x1)[1]), x1) # 1列目に要素が全て1の列を付与
y1 <- x2 %*% theta1 + rt(100, df=3) # yは推計値＋残差
cf2[,j] <- lm(y1 ~ x1)$coeff
}
cf2
}
stopCluster(cl)
# 並列化終了のための呪文
e_time <- Sys.time()
# 終了時間記録のための呪文
ot1
23

24.

[beta]

比較用のシングルコア版コード(1A’)
rm(list=ls(all=TRUE))
# ワークスペースのクリア
s_time <- Sys.time()
# 開始時間記録のための呪文
require(foreach); require(MASS)
# for rt
set.seed(15)
theta1 <- c(10, 5, 2, 3) # 回帰パラメータ "y=10+5x1+2x2+3x3"
ot1 <- foreach(i=1:4, .combine=c) %do% {
cf2 <- matrix(NA, nc=2500, nr=4) # 縦に並べないとわけがわからなくなる!!!
for (j in 1:2500) {
x1 <- matrix(runif(300, min=1, max=10), nc=3, nr=100) # xの値
x2 <- cbind(rep(1, dim(x1)[1]), x1) # 1列目に要素が全て1の列を付与
y1 <- x2 %*% theta1 + rt(100, df=3) # yは推計値＋残差
cf2[,j] <- lm(y1 ~ x1)$coeff
}
cf2
}
e_time <- Sys.time()
# 終了時間記録のための呪文
e_time - s_time
24

25.

並列化で嬉しくなるのは? • 400回シングル Time difference of 2.374 secs 並列化 Time difference of 8.911 secs • 4000回シングル Time difference of 7.158 secs 並列化 Time difference of 11.222 secs • 10000回シングル Time difference of 15.31853 secs 並列化 Time difference of 15.63356 secs • 40000回シングル Time difference of 55.244 secs 並列化 Time difference of 36.901 secs • 100000回シングル Time difference of 2.264043 mins 並列化 Time difference of 1.329983 mins Windows VISTA, 32bit, R3.0.0, コア数2の条件でテストした結果 25

26.

[beta]

結論: シミュレーションに使える!
データの取り出し方
length(ot1)
[1] 40000
> ot1x <- matrix(ot1, nr=4) # 整形
> dim(ot1x)
[1]
4 10000
> apply(ot1x, 1, mean)
[1] 10.008551 4.999126 1.999420 3.000582
> apply(ot1x, 1, median)
[1] 10.010047 4.998599 1.999008 3.000921
# モデルの理論値は10, 5, 2, 3
26

27.

参考資料 Revolution Analytics. “doParallel: Foreach parallel adaptor for the parallel package,” R package version 1.0.1. 2012, available at http://CRAN.R-project.org/package=doParallel. Revolution Analytics, “foreach: Foreach looping construct for R,” R package version 1.4.0. 2012, available at http://CRAN.Rproject.org/package=foreach. S. Weston and R. Calaway, “Getting started with doParallel and foreach,” 2010, available at http://cran.rproject.org/web/packages/doParallel/vignettes/gettingstartedParall el.pdf. S. Weston, “Using the foreach packages,” 2009, available at http://www.rochester.edu/college/psc/thestarlab /help/UsingTheFo reachPackage.pdf. おわり 27