>100 Views
November 08, 25
スライド概要
IPAセキュリティ・キャンプ全国大会2025のLTセッションで発表したスライドです。情報保全は一種のセキュリティだと思っています
ArchiveTeam Warriorで始めよう! お⼿軽Webアーカイブ ボランティア stepney141 (ネクストチューター) セキュリティ・キャンプ全国⼤会2025 LTセッション 2025年 8⽉ 14⽇ ※ほぼ同じ内容は https://stepney141.hatenablog.com/entry/2025/02/17/182148 で読めます
お前は誰? 素性 ● 東京⼤学⼤学院 総合⽂化研究科 ● 研究テーマ : ゲーム情報学, 完全情報ゲームの複雑性推定 ○ セキュリティは特に専⾨分野ではないです 趣味 ● ボードゲームエンジンの開発 ● 関数電卓プログラミング ● 魔術(オカルティズム)の歴史 ● Webアーカイブ 2
スマホをぶん投げたくなる 瞬間といえば? 3
コレ!!!!!!!! 4
ちょっと真⾯⽬な話 5
消滅したサイト … Yahoo! ジオシティーズ (2019) https://www.itmedia.co.jp/news/articles/1904/01/news095.html 6
消滅したサイト … ⽶国連邦政府の各種データベース (2025) ※ この話へ興味のある⼈へ → https://govdiff.com/ を⾒よう https://www.bloomberg.co.jp/news/articles/2025-08-13/T0WWN0GP9VD000 7
今年, 世界から消滅した/する予定のオンラインサービス https://wiki.archiveteam.org/index.php/Deathwatch 8
Web上に情報が残らずに何が困るのか? 知識の喪失 ● ● 有益な知識が失われる ex. シンプルにものすごい情報量の個⼈サイト ⽂化圏の喪失 ● ● Web上コミュニティの拠り所が失われる ex. サブカル作品の⼆次創作サイト, 著名⼈のブログ 「データにアクセスする⾃由」の喪失 ● まず何よりこれが許せなくないですか??? 9
世界から悲劇をなくすために 私たちができることは? 10
Archive Team とは? ● Webアーカイブを専⾨に⾏う有志団体 ● 世界中の様々なWebサービスの終了情報を集め, ⾃前のツール でクロール&保存している ● 収集したデータをInternet Archiveに提供している ➡ この「⾃前のツール」の1つが “Warrior” 11
Archive Team Warrior とは? ● Archive Teamが開発・運⽤する分散クロール環境 ● 収集したデータをInternet Archiveに提供している ● Warriorで保存されたWebサイトの例 ○ Yahoo! ジオシティーズ ○ FC2 WEB ○ Goo辞書 etc… ● 誰でも VM / Docker で簡単に動かせる 12
Warriorによる分散クローリングのしくみ 1. 消えそうなサイトを... 2. Warriorが保存! 3. ジョブマネージャが タスクを割り振る 4. データを整理 5. Internet Archiveへ https://wiki.archiveteam.org/index.php/Dev/Infrastructure 13
どうやって動かせばいい? 14
Docker Composeで動かせます 15
30億のデバイスで⾛るcompose.yaml services: archiveteam-watchtower: container_name: archiveteam-watchtower image: containrrr/watchtower labels: - com.centurylinklabs.watchtower.enable=true - com.centurylinklabs.watchtower.scope=archiveteam-warrior volumes: - '/var/run/docker.sock:/var/run/docker.sock' command: '--label-enable --cleanup --interval 3600 --scope archiveteam-warrior' restart: unless-stopped archiveteam-warrior: container_name: archiveteam-warrior image: atdr.meo.ws/archiveteam/warrior-dockerfile environment: - DOWNLOADER=stepney141 # Change this to your nickname - SELECTED_PROJECT=auto - CONCURRENT_ITEMS=6 stop_signal: SIGINT stop_grace_period: 5m labels: - com.centurylinklabs.watchtower.enable=true - com.centurylinklabs.watchtower.scope=archiveteam-warrior ports: - '127.0.0.1:8001:8001' restart: always 16
とはいえWarriorにも限界はある - あくまで有志団体なのでリソースは有限 →サ終に間に合わない場合も - 最近はAIの影響でクロールを明⽰的に禁⽌する動きも増えてきてる - Internet Archiveの検索機能はだいぶアレ - そもそもWayback Machineって持続可能ですか? - cf. 2024年の⼤規模サイバー攻撃事案 17
とはいえWarriorにも限界はある しかし, 全く何もやらないよりは遥かにマシ! - あくまで有志団体なのでリソースは有限 →サ終に間に合わない場合も - 最近はAIの影響でクロールを明⽰的に禁⽌する動きも増えてきてる - Internet Archiveの検索機能はだいぶアレ - そもそもWayback Machineって持続可能ですか? - cf. 2024年の⼤規模サイバー攻撃事案 18
伝えたいこと 19
情報を保全することも ⼀種の「セキュリティ」では? 20
(奇跡的に時間が余ったら)デモ 21