>100 Views
February 04, 26
スライド概要
今まで、「ビッグデータの読み込みとデータの確認」、「集計とグラフ描画」、オープンデータのWebスクレイピングやデータ整形を学ぶための「応用編 医療」を学習してきたみなさま。
ここからは、いよいよ4th STEPである「機械学習」に進んでいきます。
どのような機械学習を選択してデータ解析すればよいか提案ができること、そしてそのコードを書けることにより、データサイエンティストとしてかなり有利な条件でのリスキリングが可能となります。
学習を始める前に、なぜ機械学習を学ばなくてはならないかを理解するために、データを知識・知恵に変えるためのフレームワークである「DIKWモデル」について説明します。
DIKWモデルでは、データ、情報、知識、知恵の4つに分類します。
具体的に、ある学級のテストの点数に関して説明していきます。
①データ:1学期中間試験のテストの答案用紙の束のように、単なる数字や記号の集まりをデータと呼びます。
②情報:①のデータをDataFrameやEcelにまとめ、合計点や偏差値などのその他の要約統計量を求めたものを「②情報」と呼びます。グラフを描き、わかりやすく可視化することもあります。今までのデータサイエンス チュートリアルはここまで対象として学んできました。
③知識:さらにデータが増えて、1学期期末試験、2学期中間試験などのデータが入手できると、どのような事を考えるでしょうか?個々に3学期の期末試験の点数を予測したり、テストの結果を元に、文系に進学した方がよいのか、それとも理系の方がよいのか、知りたいと思うことでしょう。情報から規則性や見解などを導き出したものを「③知識」と呼び、機械学習や深層学習という手法が必要となってきます。
④知恵:深い知識が豊富にあり、様々な問題に直面した時に発揮される問題解決能力や発想力を「④知恵」と呼びます。ちなみに、人間と同レベルの、あるいはそれを超える知恵を持つAIを「強いAI」と呼びますが、これはまだ実現していませんので、知恵は人間のみが持っているものです。
以上まとめると、前のスライドに戻って、このようになります。別の例も示しておきました。
このようにデータを知識・知恵に変えるためのフレームワーク「DIKWモデル」でデータ分析のステップを整理すると、お偉方が「データが山ほどあるのだから、データサイエンティストに何か分析してもらえ!」というような昭和の時代の業務命令が意味をなさないことがよくわかると思います。このような時は、何か行き詰っているのだなあ~と、やり過ごすことが一番です。これが、知恵です。
データサイエンス チュートリアル 4th STEP 機械学習 Machine Learning
4th STEP 機械学習 Section 1 機械学習がもたらすもの データサイエンス チュートリアル 2
データサイエンス チュートリアル 次は、機械学習やります! 1st STEP ビッグデータの読み 込みとデータの確認 4th STEP 機械学習 2nd STEP 集計とグラフ描画 3rd STEP 応用編 医療 データサイエンス チュートリアル 3
データサイエンスのステップ DIKWモデル 【出典】 DIKWモデルとは? データをDXや経営に生かすために必要 な「昇華」って? https://data.wingarc.com/dikwmodel-37279 DIKWモデル Data ① データ 数値や実験結果、文章、音声、動画 など人間の解釈の素材となるものすべて 購入された日時、消費者の性別、商品が購入され た個数など登録されたデータすべて データを整理・分析し、解釈できるよう にしたもの Excelやデータベースにて整理され、グラフ・図の作 成やフィルタリングが可能になったデータ 情報を通してデータや情報、体験を通 じて得られた理解やノウハウ 水曜日の7:00-9:00には、30-40代の男性により 商品Aが購入される傾向にある→水曜日朝には 30-40代男性向けの商品在庫を増やすとよさそう Information ②情 報 Knowledge ③知 識 Wisdom ④知 恵 知識を深く体得することで身につく、普遍 的な問題解決能力や発想力 POSデータの中でも〇〇という箇所に注目すべき/ ミドル層の男性には全国的に〇〇への需要が高い /特定のデータに注目し過ぎず、他と掛け合わせて 検証した方が良い 4 データサイエンス チュートリアル
データサイエンスのステップ ① データ ① データ 単なる数字や記号の集まり 1学期中間試験 数学 国語 77 佐藤 亮太 英語 89 45 英語 数学 70 85 数学 67 山本 美咲 92 国語 55 数学 国語 85 伊藤 大輝 データサイエンス チュートリアル 55 英語 鈴木 すず 数学 90 90 国語 鈴木 すず 田中 誠一郎 伊藤 大輝 佐藤 亮太 88 伊藤 大輝 田中 誠一郎 鈴木 すず 国語 英語 89 山本 美咲 山本 美咲 英語 65 佐藤 亮太 田中 誠一郎 5
データサイエンスのステップ ② 情報 ②情 報 データを分類や集計して意味を持つようにしたもの グラフ DataFrame 氏名 佐藤 亮太 伊藤 大輝 山本 美咲 田中 誠一郎 鈴木 すず 数学 77 85 67 90 55 国語 70 85 90 89 55 英語 65 88 89 92 45 データの要約 氏名 田中 誠一郎 伊藤 大輝 山本 美咲 佐藤 亮太 鈴木 すず 数学 90 85 67 77 55 国語 89 85 90 70 55 英語 92 88 89 65 45 計 271 258 246 212 155 要約統計量 氏名 佐藤 亮太 伊藤 大輝 山本 美咲 田中 誠一郎 鈴木 すず 数学 62.1 58.1 43.8 51.7 34.3 国語 58.3 55.3 59.1 44.2 33.1 英語 58.9 56.7 57.3 44.1 33.0 偏差値 60.2 57.1 54.2 46.1 32.4 データサイエンス チュートリアル 6
データサイエンスのステップ ③ 知識(1) 2学期中間試験 1学期中間試験 1学期期末試験 データが増加するにつれて… 次の点数を予測 文系・理系に分類 データサイエンス チュートリアル 知識 7
データサイエンスのステップ ③ 知識(2) ③知 識 情報から規則性や見解などを導き出したもの AI 機械学習 ルールベース (エキスパートシステム) 遺伝的アルゴリズム 教師あり学習 教師なし学習 強化学習 データサイエンス チュートリアル 深層学習 (ディープラーニング) 8
データサイエンスのステップ ④ 知恵(1) ④知 恵 人 間 問題解決能力や発想力 強いAI データサイエンス チュートリアル まだ実用化されていない 9
データサイエンスのステップ ④ 知恵(2) 身体性人工知能は現実からの情報を直接人工知能に取り込もうとしたが、言語の基盤モデルの成功が明らかにしたことは、人 工知能に学ばせるべきだったのは現実の情報そのものではなく、人間の脳というフィルターを通して言語化された情報のほうだった、 ということである。 失 敗 現実世界 の情報 学習 成 功 人間の脳が 作った言語 学習 ChatGPT データサイエンス チュートリアル 10
データサイエンスのステップ DIKWモデル Data データ Information 情 報 Knowledge 知 識 単なる数字や記号の集まり 購入された日時、消費者の性別、商品が購入され た個数など登録されたデータすべて データを分類や集計して 意味を持つようにしたもの Excelやデータベースにて整理され、グラフ・図の作 成やフィルタリングが可能になったデータ 情報から規則性や見解など を導出したもの 水曜日の7:00-9:00には、30-40代の男性により 商品Aが購入される傾向にある→水曜日朝には 30-40代男性向けの商品在庫を増やすとよさそう Wisdom 知 恵 知識を活用して判断したもの POSデータの中でも〇〇という箇所に注目すべき/ ミドル層の男性には全国的に〇〇への需要が高い /特定のデータに注目し過ぎず、他と掛け合わせて 検証した方が良い 11 データサイエンス チュートリアル