683 Views
September 20, 23
スライド概要
2023年9月14日に開催されたMix Leap Studyの登壇資料です。
【イベント詳細】
Mix Leap Study #73 - ヤフーのデータエンジニアに聞く!データ可視化の裏側
https://yahoo-osaka.connpass.com/event/291502/
【セッション概要】
デブサミ関西の登壇内容を振り返りつつ、データが生成されてから分析に活用されるまでの流れをお話します。加えてDS.GALLERY開発の苦労話など、一歩踏み込んだ内容をお話ができればと思っています。デブサミセッションを聞いた方も聞いていない方も楽しめる内容を準備してお待ちしています!
【紹介したサービスに関するURL】
ヤフー・データソリューションのサービスサイト
https://ds.yahoo.co.jp/
DS.GALLERY
https://ds.yahoo.co.jp/gallery/trend/
DS.INSIGHTの無料トライアル(法人向け)
https://ds.yahoo-net.jp/trial/dsinsight
2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp
Mix Leap Study #73 #mixleap ヤフーのデータエンジニア3⼈に聞く! データ可視化の裏側 デブサミ関⻄の振り返りと 可視化ツール開発の事例紹介 2023年9⽉14⽇ ヤフー株式会社 猪⽬ 美紗 (C)Yahoo Japan 1
猪⽬ 美紗 Misa Inome ヤフー株式会社 ⼤阪オフィス所属 データソリューション事業 エンジニア データ可視化やサービスサイトの開発を担当 ©(C)Yahoo 2021 YahooJapan Japan Corporation All rights reserved. X(旧Twitter) @zzzmisa GitHub zzzmisa 趣味 ⼦育て・コーヒー 英会話・個⼈開発 2
Developers Summit 2023 KANSAI に登壇してきました! デブサミ関⻄の登壇資料 本⽇の発表と合わせてご覧ください (C)Yahoo Japan 3
デブサミ関⻄登壇内容サマリーと補⾜ • ヤフー・データソリューションの紹介 • データが分析に活⽤されるまでの流れ • データ可視化の開発運⽤コストを下げるには 開発運⽤の苦労事例 ©(C)Yahoo 2021 YahooJapan Japan Corporation All rights reserved. 4
デブサミ関⻄登壇内容サマリーと補⾜ • ヤフー・データソリューションの紹介 • データが分析に活⽤されるまでの流れ • データ可視化の開発運⽤コストを下げるには 開発運⽤の苦労事例 ©(C)Yahoo 2021 YahooJapan Japan Corporation All rights reserved. 5
ヤフー・データソリューションとは クイズで登場したような データが⾒られます! (C)Yahoo Japan 6
どんなクイズだったか ある検索ワードの推移です 当てはまるワードはなんでしょう ? 毎年12⽉26⽇前後が 検索のピーク 2020/12/26 (C)Yahoo Japan 2021/12/26 2022/12/26 7
会場からいただいた答え ある検索ワードの推移です 当てはまるワードはなんでしょう クリスマス? 紅⽩歌合戦? 2020/12/26 (C)Yahoo Japan 質屋? 2021/12/26 2022/12/26 8
正解は… ある検索ワードの推移です 当てはまるワードはなんでしょう プロポーズされたら 毎年12⽉26⽇前後が 検索のピーク 2020/12/26 (C)Yahoo Japan 2021/12/26 2022/12/26 9
データ可視化サービスの紹介 (C)Yahoo Japan ヤフーのビッグデータを 無料で⾒られる 分析できるデスクリサーチツール データ可視化コンテンツ 10
デブサミ関⻄登壇内容サマリーと補⾜ • ヤフー・データソリューションの紹介 • データが分析に活⽤されるまでの流れ • データ可視化の開発運⽤コストを下げるには 開発運⽤の苦労事例 ©(C)Yahoo 2021 YahooJapan Japan Corporation All rights reserved. 11
⽣成から活⽤までのデータの流れ ユーザーの操作 API 可視化ツール • データを理解しやすいようにグラフ化やダッシュボード化 (C)Yahoo Japan 12
いろいろなデータ可視化 栗⽥さんの担当 Web Nuxt API API 吉⽥さんの担当 Web (C)Yahoo Japan Nuxt 13
デブサミ関⻄登壇内容サマリーと補⾜ • ヤフー・データソリューションの紹介 • データが分析に活⽤されるまでの流れ • データ可視化の開発運⽤コストを下げるには 開発運⽤の苦労事例 ©(C)Yahoo 2021 YahooJapan Japan Corporation All rights reserved. 14
可視化ツールの開発で気を付けること 1. データ更新頻度 • データ更新頻度が⾼いと開発運⽤が⼤変 そこまで頻繁に確認しなければならないか ▶ 2. 使うデータ量 • データ量が多いと開発運⽤が⼤変 過去データまで必要か、対象を絞れないか ▶ 3. データの⾒せ⽅ 更新頻度削減のために要件を絞る 使うデータ量削減のために要件を絞る • 新しい可視化表現を開発するのは⼤変 ▶ ⼀般的なグラフで表現 ユーザーに合わせた表現も⼤事 (C)Yahoo Japan 15
可視化ツールの開発で気を付けること 4. データの調達 • データの収集・加⼯から⾏うのは⼤変 ▶ 5. データ取得APIの利⽤料 • 従量課⾦制APIのライブ接続は利⽤料が⾼額に ▶ 6. 社外公開 すぐに使えるデータやAPIがないか探してみる 定期実⾏で節約 • 社外秘データが含まれていないか、 差別⽤語・アダルトワードはどうする ▶ 公開NGデータが含まれていないかチェック (C)Yahoo Japan 16
デブサミ関⻄登壇内容サマリーと補⾜ • ヤフー・データソリューションの紹介 • データが分析に活⽤されるまでの流れ • データ可視化の開発運⽤コストを下げるには 開発運⽤の苦労事例 ©(C)Yahoo 2021 YahooJapan Japan Corporation All rights reserved. 17
実際に苦労している点 1 NGワードチェック 猪⽬ 謎のワード「パッサウォン」 (C)Yahoo Japan 18
何だったか TikTokに出てくる架空の動物 パッサウォン NGワードではなかったため、そのまま表⽰しました ※ イメージ 検索結果にもまだない (C)Yahoo Japan 最新のトレンドワード だった! 19
NGワードチェック 結論 1. NGワードリストに載っているものは⾃動で除外 2. ⾃動チェック後に最終的には⼈がチェック 3. パッと⾒てわからないものは皆で議論 NGワードチェックは (C)Yahoo Japan まだまだ泥臭い作業 20
実際に苦労している点 2 企画と要件定義 少しの要件変更で、実装⽅法とコストが⼤幅に変わることがある データやシステムの設計を知らないと⾒積もれない 表⽰期間を少し変えられない︖ ⾮エンジニア それはデータマート側の集計からやり直しになるので、 プラス◯⼈⽉掛かります…。 (C)Yahoo Japan 21
企画と要件定義 結論 エンジニアが企画の早い段階から参加し 費⽤対効果の⾼い⽅法を⼀緒に考える (C)Yahoo Japan 22
©(C)Yahoo 2021 YahooJapan Japan Corporation All rights reserved. 23