>100 Views
June 08, 26
スライド概要
(AIのよる要約)
本スライドでは、他社・他部署・オープンデータなどからのデータ受領手段(メール添付、Teams、API、クラウドストレージ、データレイク)を比較し、フェーズ(超初期、初期、システム開発、運用)や環境(ローカル、クラウド)に応じた最適な受領方法を提案しています。また、NotebookLMを活用した探索的データ分析(EDA)の具体的なステップとして、データ概要の把握、分布の可視化、欠損値・外れ値の確認、相関・クロス集計の実施方法を紹介しています。
アジャイル/スクラム/データサイエンス/プロダクトマネジメント/プロジェクトマネジメント/組織論など、日々の学びをスライドにします。
【製造業データビジネス勉強会】07 データ受領と探索的データ分析 ~NotebookLMを使ったお手軽EDA~ 2026/06/09 @shimitaka1982 清水 隆史
今日の 勉強どころ
データビジネスの階層構造 プロセス 現時点の 個人的な感触 新規事業創出 プロジェクトマネジメント ビジネスモデル 要求分析・要件定義 プロダクトマネジメント リスクマネジメント プラクティ ス マインドセット 人材育成 ビジネス力 データサイエンス力 データエンジニアリング 力
データビジネスの進め方 ① 事業設計 ⑧ マ ③ データ準備 ー ④ 探索的データ分析 ケ テ ⑤ モデル構築 ィ ン ⑥ 社会実装 グ ⑦ 保守・運用 ② サービス設計 現時点の 個人的な感触 • いずれも単方向ではなく、 行ったり来たりを繰り返す • 全てを行うわけではなく、 途中から始まったり途中で 終わったりすることもある • 初期の段階で後期の要素を 考えておく必要がある
データ受領
ずっと思ってたこと 一番良いデータ受領の 方法って何だろう??
どこからデータを受領するか 他社からのデータ受領 ✓他社とNDAを締結した上でデータを受領するパターン 他部署からのデータ受領 ✓他部署からデータを受領するパターン 第三者からのデータ受領 ✓オープンデータを集めてきたりデータを購入したりする ✓(※あまり『受領』とは言わない)
データ受領の方法 No. 方法 概要 メリット デメリット 1 メール添付 • メールに添付す る • 特別な仕組みが不要 • 非エンジニア同士でもやり やすい • 誤送信による情報漏洩リスク • パスワード別送が面倒 • 送れるデータ容量に限りがある 2 Teams格納 • Teamsチームを 作成して格納す る (SharePoint) • Teamsチームを使っていた ら比較的やりやすい • 大量のデータはフォルダ分けや アップロードが面倒 3 API • API経由で受領す る • 必要な時に最新のデータを 瞬時に受領出来る • 自動化できる • 開発・維持が必要 4 クラウドス トレージ • AWS/S3などに格 • インフラ管理が楽 • ストレージ費用が比較的安 納 価 5 データレイ ク • Snowflakeなど のデータレイク に格納 • データシェアリング機能 • 強固なセキュリティ • 権限管理が複雑 • 双方の環境が必要 • クラウド利用料
どう受領するかでその後が変わる Teamsやメール受領などの場合 ✓ローカル環境にダウンロードしてExcelやローカル環境 (Pythonなど)で分析することが多い ✓BIツールにアップロードして分析することも多い クラウド環境の場合 ✓そのままクラウド環境で分析することが多い ✓そのためクラウド環境の使い方の知識が必要になる
フェーズによって使い分ける 超初期フェーズ ✓「データの中身を軽く確認したい」ぐらいであれば、Teamsに よる受領とローカル環境での分析で十分耐えられる ✓むしろ、超初期フェーズで手数をかけて環境を構築するのはコ スパが悪いことも多い 初期フェーズ ✓PoCを実施するフェーズになったら、システム的な仕組みを考 えてもよい ✓例えば1ヶ月間のPoCを実施する際に、毎日データが更新され るのであれば、自動更新の仕組みを組んだ方が良い
フェーズによって使い分ける システム開発フェーズ ✓本格的に自動データ取得を考える 運用フェーズ ✓MLOps環境を構築して自動的にデータを受領してモデルを更新 する仕組みが必須になる ✓(ただし、モデル構築が年に1回とかでよければ、自動化は必 ずしも必要ではない)
環境によって使い分ける ローカル環境 ✓(最近はほとんど見ないが)ローカル環境しかないのであれば、 データを受領してローカルにダウンロードして分析する クラウド環境 ✓クラウド上で分析できる環境が構築されているのであれば、ク ラウド上で分析する
探索的 データ分析
すごい細かい話(トリビア) 探索的データ分析(EDA)のもともとの英語は 諸説ある ✓Exploratory Data Analysis(探索的な) ✓Explanatory Data Analysis(説明的な) Analysisの訳も諸説ある ✓分析 → 探索的データ分析 ✓解析 → 探索的データ解析
すごい細かい話(トリビア) 「分析」と「解析」の 違いってなんだ?? とか考えると夜しか眠れない
探索的データ分析(EDA)でやること 1.データの概要理解 ✓データ型の確認 • 文字列(String)か数値(double、int)か日時か ✓データ量の確認 • レコード数(行数)と列数の確認 • ファイル数や期間の確認 ✓基本統計量の確認 • 平均値、中央値、最大値、標準偏差などの算出 • (※要約統計量などともいう)
探索的データ分析(EDA)でやること データ型の確認 *データは「データサイエンティスト協会スキル定義委員」の 「データサイエンス100本ノック(構造化データ加工編)」を利用させていただいています https://github.com/The-Japan-DataScientist-Society/100knocks-preprocess/tree/master NotebookLMを 利用
探索的データ分析(EDA)でやること データ量の確認 *データは「データサイエンティスト協会スキル定義委員」の 「データサイエンス100本ノック(構造化データ加工編)」を利用させていただいています https://github.com/The-Japan-DataScientist-Society/100knocks-preprocess/tree/master NotebookLMを 利用
探索的データ分析(EDA)でやること データ量の確認 *データは「データサイエンティスト協会スキル定義委員」の 「データサイエンス100本ノック(構造化データ加工編)」を利用させていただいています https://github.com/The-Japan-DataScientist-Society/100knocks-preprocess/tree/master NotebookLMを 利用
探索的データ分析(EDA)でやること 2.データの偏りや分布を可視化 ✓変数の分布確認 • ヒストグラムや箱ひげ図等を使って、データの分布を確認 ✓カテゴリの割合確認 • 棒グラフや円グラフ等を使って、カテゴリデータの各要素がどれぐ らいの割合で存在しているかを確認
探索的データ分析(EDA)でやること 変数の分布確認 *データは「データサイエンティスト協会スキル定義委員」の 「データサイエンス100本ノック(構造化データ加工編)」を利用させていただいています https://github.com/The-Japan-DataScientist-Society/100knocks-preprocess/tree/master NotebookLMを 利用
探索的データ分析(EDA)でやること カテゴリの割合確認 *データは「データサイエンティスト協会スキル定義委員」の 「データサイエンス100本ノック(構造化データ加工編)」を利用させていただいています https://github.com/The-Japan-DataScientist-Society/100knocks-preprocess/tree/master NotebookLMを 利用
探索的データ分析(EDA)でやること 3.欠損値と異常値(外れ値)の確認 ✓欠損値の確認 • データが入力されていない箇所がどれくらいあるかを調べる ✓異常値・外れ値の確認 • 他のデータから大きく離れた極端な値を見つける • データの入力ミスやシステム不具合によるケースが想定される
探索的データ分析(EDA)でやること 欠損値の確認 NotebookLMを 利用 *データは「データサイエンティスト協会スキル定義委員」の 「データサイエンス100本ノック(構造化データ加工編)」を利用させていただいています https://github.com/The-Japan-DataScientist-Society/100knocks-preprocess/tree/master
探索的データ分析(EDA)でやること 異常値・外れ値の確認 NotebookLMを 利用 *データは「データサイエンティスト協会スキル定義委員」の 「データサイエンス100本ノック(構造化データ加工編)」を利用させていただいています https://github.com/The-Japan-DataScientist-Society/100knocks-preprocess/tree/master
探索的データ分析(EDA)でやること 4.相関関係の確認・クロス集計 ✓相関関係の確認 • ふたつの変数の散布図や相関係数を確認する • ヒートマップを作成したりもする ✓クロス集計 • カテゴリデータ同士、あるいはカテゴリと数値の掛け合わせにより、 特徴的な傾向が無いかを探す
探索的データ分析(EDA)でやること 相関関係の確認 NotebookLMを 利用 *データは「データサイエンティスト協会スキル定義委員」の 「データサイエンス100本ノック(構造化データ加工編)」を利用させていただいています https://github.com/The-Japan-DataScientist-Society/100knocks-preprocess/tree/master
探索的データ分析(EDA)でやること 相関関係の確認 NotebookLMを 利用 *データは「データサイエンティスト協会スキル定義委員」の 「データサイエンス100本ノック(構造化データ加工編)」を利用させていただいています https://github.com/The-Japan-DataScientist-Society/100knocks-preprocess/tree/master
探索的データ分析(EDA)でやること 原価と単価(売価)に高い相関があることは、 当たり前と言えば当たり前 生成AIはそういったことも自信満々に報告して くるので、そのままのテンションでドメイン知識 がある顧客に報告すると呆れられることもある 一方で、線形に相関がある、ということは発見 かもしれない
探索的データ分析(EDA)でやること 従って、探索的データ分析で出てきた結果を眺 めながら、ドメイン知識と照らし合わせて「感覚 とあっているか」をすり合わせることが大事 もし違和感があるのであれば、どのような点に 違和感があるのかを具体的にすり合わせられると なお良い
おまけ 年齢が高くなるほど購買金額が 上がる気もするが 実際はそうでもなかった 直感とは合わない 結果も大切にする NotebookLMを 利用 *データは「データサイエンティスト協会スキル定義委員」の 「データサイエンス100本ノック(構造化データ加工編)」を利用させていただいています https://github.com/The-Japan-DataScientist-Society/100knocks-preprocess/tree/master
探索的データ分析(EDA)の本質 探索的データ分析では、「探索的」という名称 の通り、最初から綺麗な正解を求めずに、地道に データを探索していく心意気が大事 少しエモい言い方をすると… データと対話する
Thank You !!