GitHub Actionsオタクによるセルフホストランナーのアーキテクチャ解説

90.8K Views

May 26, 23

#GitHub Actions #セルフホストランナー #ランナー運用 #アーキテクチャ #認証情報管理

スライド概要

CI/CD Test Night #6
https://testnight.connpass.com/event/281681/

Kenta Kase

@Kesin11

スライド一覧

東京の東側のWeb系企業で働くエンジニア最近はCI/CDオタクからAIに興味が移りました

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

きっとあなたの知らないGitHubで使えるGitHub Copilotの機能

Kenta Kase 99.7K

TypeScriptとVercel AI SDKで実現するLLMアプリケーション開発：フロントエンドからバックエンド、そしてChrome拡張まで

Kenta Kase 34.5K

OSSのリリース作業をなるべく簡単にする

Kenta Kase 24.2K

CI/CDボトルネックの把握とその先へ

Kenta Kase 19.3K

最近のGitHub Actionの気になるアップデートの紹介

Kenta Kase 13.8K

セルフホストランナーのAWS費用を30%削減するまでの道のり

Kenta Kase 7.3K

各ページのテキスト

GitHub Actionsオタクによるセルフホストランナーのアーキテクチャ解説加瀬健太 @Kesin11 品質本部品質管理部SWET第二グループ株式会社ディー・エヌ・エー © DeNA Co.,Ltd.

自己紹介加瀬健太品質本部品質管理部SWET第二グループ ● 全社用GitHub Actionsランナーの設計 ● 社内向けCircleCI Server, Bitriseの運用 @Kesin11 @Kesin11 日課はGitHubのchangelogを読むこと 2

今回のCI/CD Test Nightのテーマ GitHub Actionsセルフホストランナーのインフラ運用 3

セルフホストランナー運用の難しさを解説します 4

当日は多くのスライドをスキップします 󰢛 詰め込みすぎた・・・ 5

当日はスキップセルフホストランナーをシンプルに建てる方法 6

当日はスキップセルフホストランナーをシンプルに建てる方法 ● OrganizationかRepositoryの設定画面のActions -> Runnersのページ 7

当日はスキップセルフホストランナーをシンプルに建てる方法 ● コマンドを上から順に実行するだけでセルフホストランナーとして登録できる 8

当日はスキップセルフホストランナーをシンプルに建てる方法 ● 自分のチームで1-2台程度を建てるだけならOK ● 実際にはrun.shで起動するよりはsvc.sh installの方がオススメ ○ OSごとに応じたサービスに登録してくれるラッパースクリプト ○ マシンを再起動しても自動でランナープロセスが立ち上がってくれる ○ 公式ドキュメント ■ セルフホストランナーアプリケーションをサービスとして設定する 9

https://docs.github.com/ja/actions/hosting-your-own-runners/managing-self-hosted-runners/configuring-the-self-hosted-runner-application-as-a-service?platform=mac

10.

規模の大きい組織でランナー運用する場合の課題自分が設計時に悩んだり、他社事例やOSSのドキュメントで学んだこと ● スケールさせるためのインフラ選定 ● 前のジョブのディレクトリや認証情報が見えてしまう ● キューの待ち時間が長い ● ジョブの中でコンテナを使いたい 10

11.

スケールさせるためのインフラ選定 11

12.

VMかコンテナをスケールさせるインフラはAWSなどのクラウドサービスを使うことを前提 ● ● VMをスケーリングさせるクラウドマネージドのコンポーネントを使う ○ （ここではVM = EC2などを指す） ○ EC2 Auto Scaling FaaSなどでVMの立ち上げを自力制御 ○ ● LambdaでEC2の立ち上げ、削除コンテナオーケストレーター ○ EKSなどのマネージドなk8s ○ ECSなどのベンダー独自のオーケストレーター 12

13.

VMとコンテナのメリデメ ● VMのメリット ○ ● ○ 一般的にVMよりは起動が早いのでインフラ面の差は少ない ○ Dockerfileはメンテしやすい VMが立ち上がるのに時間がかかる ○ コンテナのメリット github hostedランナーもVMな VMのデメリット ○ ● マシンイメージを焼くのは Dockerfileよりは大変 ● コンテナのデメリット ○ 稀にコンテナ特有の事情が表面化する ■ dockerを使うために工夫が必要（後述） 13

14.

規模の大きい組織でランナー運用する場合の課題 ● スケールさせるためのインフラ選定 ○ VMかコンテナ ● 前のジョブのディレクトリや認証情報が見えてしまう ● キューの待ち時間が長い ● ジョブの中でコンテナを使いたい 14

15.

前のジョブのディレクトリや認証情報が見えてしまう 15

16.

前のジョブのディレクトリが見えてしまう ● セルフホストランナーではジョブ実行後のディレクトリは削除されない ○ おそらく毎回の無駄な git clone を避けるため ○ ジョブ内で ls コマンドに制限は無いので他のチームのジョブのディレクトリを覗けてしまう ○ 例：$HOME/actions-runner/_work 以下に各ジョブのディレクトリが存在している 16

17.

セルフホストランナーのマシンに認証情報が残ってしまう ● ツールの認証情報は$HOME以下に保存されるツールが多い ● 例：docker login セルフホストランナーのマシンチームAのジョブチームBのジョブ echo $GITHUB_PAT | docker login ghcr.io \ -u USERNAME \ --password-stdin cat $HOME/.docker/config.json トークンが書き込まれる $HOME/.docker/config.json 別チームのトークンを使えてしまう！！ 17

18.

当日はスキップセルフホストランナーのマシンに認証情報が残ってしまう ● yamlを書くユーザー側が対策できる？ ○ 認証情報を扱う actions の中にはジョブ終了時の post 処理で丁寧に消してくれるものも存在する ■ ○ ソースコードを見ないと安心はできないが自分で docker login などのコマンドを実行する場合は後始末が必要 ■ 一般的なCIサービスではジョブごとに環境が使い捨てされるのが常識なので後始末まで考慮する人はほぼいない ● 現実的にはリテラシーで防ぐのは難しい 18

19.

複数のチームを同じランナーに相乗りさせる場合には致命的な問題 ● 関係ないチームのジョブのディレクトリを見ることができてしまう ● 関係ないチームの認証情報を見ることができてしまう組織次第だが、受け入れられないことの方が多いのでは 19

20.

解決策：ジョブごとにランナーの環境自体を使い捨てる ● github hostedのランナーと同等の挙動を実現させる ○ ジョブを終えたランナーに追加のジョブを実行させない ○ ジョブを終えたランナーの環境（VM or コンテナ）を破棄する 20

21.

ジョブを終えたランナーに追加のジョブを実行させない ● セルフホストランナーのデフォルトではジョブ完了後に次のジョブを待つ ● ephemeralモードにするとジョブ完了時に自動でランナープロセスが終了する ○ 追加でジョブが送られることがなくなる ○ config.shの段階で--ephemeralオプションを追加することで有効化 21

22.

ジョブを終えた環境（VM or コンテナ）を破棄する ● ephemeralモードであっても同じマシンでランナープロセスを再度動かすと結局同じ環境を引き継いでしまうので解決しない ○ ● ● コンテナの場合も同様。コンテナが使い回されたら解決しないランナーのプロセス終了を検知して以下の処理を行う ○ 1. APIでGitHubからランナー登録を削除 ○ 2. VM or コンテナを破棄する ○ 3. 新しいVM or コンテナを立ち上げるどう実装するかはインフラ設計次第 22

23.

規模の大きい組織でランナー運用する場合の課題 ● スケールさせるためのインフラ選定 ○ ● VMかコンテナ前のジョブのディレクトリや認証情報が見えてしまう ○ 1ジョブごとにランナーの環境自体を使い捨てる ● キューの待ち時間が長い ● ジョブの中でコンテナを使いたい 23

24.

キューの待ち時間が長い 24

25.

ランナーのオートスケール ● リクエストされたジョブ数に対してランナーが足りなければジョブはキュー待ちになる ● ジョブの数に応じていい感じにランナーをスケールアウトしてほしい ● ジョブの数が少なければ逆にランナーをスケールインしてほしい ● Webサーバーのスケール戦略と似ているところもあるが、ランナー特有の事情も存在するので完全に一緒というわけでもない 25

26.

各社やOSSで見られるアプローチ ● 1. スケジュールでスケーリング ● 2. フリー状態のランナーの台数に応じてスケーリング ● 3. ジョブのwebhookでスケーリング 26

27.

1. スケジュールでスケーリング ● 平日の営業時間は台数を増やし、夜間休日は減らす ● MAX/MINは決め打ちになるので足りなかったり逆に余る可能性がある ● シンプルで簡単な割にインフラ費は結構節約できるので最初はオススメ ○ 1ヶ月の営業日は約20日 ○ 営業時間にバッファを入れても12時間ぐらい（09:00 - 21:00） ○ 単純計算でMAX台数で稼働させるのは一ヶ月間の1/3 27

28.

当日はスキップ 2. フリー状態のランナーの台数に応じてスケーリング ● ジョブ受付可能なフリー状態のランナーのターゲット数を事前に決めておく ● 定期的にGitHubのAPIをポーリングしてフリーなランナーの台数を調べる ● ターゲット数に対しての過不足に応じてスケールアウト・インさせる ○ ● k8sっぽい OSSのactions/actions-runner-controller（ARC）がサポートしているオートスケール方式の1つ ● APIのポーリングに頼るのでスケールアウト・インのタイミングは遅くなりがち 28

https://github.com/actions/actions-runner-controller

29.

3. ジョブのwebhookでスケーリング ● ジョブのキュー登録、実行開始、実行完了のwebhookをgithubから飛ばせる ● キュー登録のwebhookを受け取ったら必要な台数のランナーを都度立ち上げる ● OSSのphilips-labs/terraform-aws-github-runnerと actions/actions-runner-controllerの両方とも対応している 29

30.

オートスケールは大別するとプール方式かwebhook方式 ● ● プール方式 ○ 1. スケジュールでスケーリング ○ 2. フリー状態のランナーの台数に応じてスケーリング webhook方式 ○ ● 3. ジョブのwebhookでスケーリングハイブリッド方式 ○ プール方式 + webhook方式の組み合わせ ○ 良いところどりできそうだが、必要台数の制御はより難しそう 30

31.

プール方式とwebhook方式の違い ● ● ゼロ台までスケールインできるかどうか ○ プール方式は最低1台は残さないとジョブが全く処理できなくなってしまう ○ webhook方式ならゼロまでスケールイン可能ユーザーがジョブをリクエストして実行開始されるまでの待ち時間 ○ ジョブ実行されるまでの待ち時間 = VM or コンテナの起動時間 + githubにランナーを登録する時間 ■ githubにランナーに登録する時間は 30秒強ぐらい ■ VM or コンテナの立ち上げ時間はインフラによるが、 EC2なら1分-2分ぐらい？ ○ webhook方式だとジョブ開始まで絶対に1-2分はかかってしまうはず ○ プール方式なら0秒だが、一方で待機時間中もインフラ費が発生する 31

32.

オートスケールを実現しているOSSの紹介 ● ● ● クラウドとGitHubのAPIを駆使する常駐型のツール ○ whywaita/myshoesはおそらくこの方式 ○ @whywaitaさんが詳しく紹介してくれるはずクラウドのマネージドツールの組み合わせ ○ philips-labs/terraform-aws-github-runner ○ @miyajanさんが詳しく紹介してくれるはず k8sのカスタムコントローラー ○ actions/actions-runner-controller 32

33.

規模の大きい組織でランナー運用する場合の課題 ● スケールさせるためのインフラ選定 ○ ● 前のジョブのディレクトリや認証情報が見えてしまう ○ ● 1ジョブごとにランナーの環境自体を使い捨てるキューの待ち時間が長い ○ ● VMかコンテナランナーのオートスケーリングジョブの中でコンテナを使いたい 33

34.

ジョブの中でコンテナを使いたい 34

35.

ランナー内でDockerを使えるようにするには ● コンテナを使う ≒ Dockerを使う ● VMでランナーを動かすならDockerを起動しておくだけ ● コンテナでランナーを動かす場合は考慮することが多い ○ ○ Docker自体をどこで動かすか ■ Docker outside of Docker（DooD） ■ Docker in Docker（DinD） ■ @s4ichiさんが詳しく紹介してくれるはずコンテナタイプのactionが使えない 35

36.

当日はスキップ Docker自体をどこで動かすか（Docker outside of Docker） ● ホストマシンのdocker.sockをコンテナにマウントして使う一般的な方法 ● 別のジョブでbuild, pullしたイメージが見えてしまうので隔離できない ○ docker image lsするだけで他のジョブがビルドしたイメージが見える ○ docker runすればイメージを動かせてしまうジョブAのコンテナジョブBのコンテナ docker.sock docker.sock ソケットをコンテナにマウント docker.sock Dockerエンジンホストマシン参考：dind(docker-in-docker)とdood(docker-outside-of-docker)でコンテナを料理する 36

https://qiita.com/t_katsumura/items/d5be6afadd6ec6545a9d

37.

当日はスキップ Docker自体をどこで動かすか（Docker in Docker） ● コンテナの中で新たにDockerを立ち上げる ● 別のジョブでbuild, pullしたイメージは見えないので隔離されている ○ コンテナごとにDocker自体が別々であるためジョブAのコンテナジョブBのコンテナ docker.sock docker.sock Dockerエンジン Dockerエンジン docker.sock Dockerエンジンホストマシン参考：dind(docker-in-docker)とdood(docker-outside-of-docker)でコンテナを料理する 37

https://qiita.com/t_katsumura/items/d5be6afadd6ec6545a9d

38.

当日はスキップ Docker自体をどこで動かすか（Docker in Docker） ● ランナーのコンテナ起動にdocker run --privilegedオプションが必要 ● コンテナを動かすホストマシン自体が完全マネージドの場合は使えない ○ ● Fargate ECSやEKSを使うとしてもホストマシンとなるEC2はこちらで管理する必要がある 38

39.

当日はスキップコンテナタイプのactionが使えない ● ● Dockerが使えたとしてもコンテナでランナーを動かしているとエラーとなる ○ ジョブ自体をコンテナ上で動かす jobs.<job_id>.container ○ ジョブとは別のコンテナを裏で立ち上げるjobs.<job_id>.services ○ 3rdパーティのコンテナタイプのactionsを動かす jobs.<job_id>.uses Error: Container feature is not supported when runner is already running inside container. ○ ランナー側で何かチェックされている？ 39

40.

[beta]

当日はスキップ

コンテナタイプのactionが使えない
●

actions/runnerをエラー文で検索してみる
https://github.com/actions/runner/blob/22d1938ac420a4cb9e3255e47a91c2e43c38db29/src/Runner.Worker/ContainerOperationProvider.cs#L530-L534

var initProcessCgroup = File.ReadLines("/proc/1/cgroup");
if (initProcessCgroup.Any(x => x.IndexOf(":/docker/",
StringComparison.OrdinalIgnoreCase) >= 0))
{
throw new NotSupportedException("Container feature is not supported when
runner is already running inside container.");
}

●

ランナー内部のコードでcgroupsからコンテナ内で動作しているか判定されているので
回避は無理そう

40

https://github.com/actions/runner/blob/22d1938ac420a4cb9e3255e47a91c2e43c38db29/src/Runner.Worker/ContainerOperationProvider.cs#L530-L534

41.

当日はスキップコンテナタイプのactionが使えない、は解決できるかも ● actions/runner-container-hooks ● ジョブの中でコンテナを動かす処理を任意のコードに委譲できる仕組み ○ k8s上で動かすランナーにおいてジョブ内でコンテナが必要な場合に dockerを使う代わりに動的にpodを立ち上げるために用意した仕組み？ ■ ○ https://github.com/actions/runner-container-hooks/tree/main/packages/k8s 参考実装として単純にdockerコマンドに置き換えるサンプルも存在 ■ https://github.com/actions/runner-container-hooks/tree/main/packages/doc ker ● 手元のローカルマシンでの実験では動いた！ ○ 解説ブログを執筆中です（公開できたらurlを追加しておきます） 41

42.

まとめ 42

43.

まとめ規模の大きい組織でセルフホストランナーを運用する場合の課題と解決策 ● スケールさせるためのインフラ選定 ○ ● 前のジョブのディレクトリや認証情報が見えてしまう ○ ● 1ジョブごとにランナーの環境自体を使い捨てるキューの待ち時間が長い ○ ● VMかコンテナランナーのオートスケーリングジョブの中でコンテナを使いたい ○ DinDを可能にするインフラ設計 43

44.