#47 Section3 分析ツール

>100 Views

February 04, 26

スライド概要

機械学習を学ぶ理由、機械学習の分類を解説してきましたが、Section3では、使用する分析ツール『Pycaret(パイカレット)』について説明します。

Pythonの機械学習ライブラリでは、scikit-learn(サイキット・ラーン)が定番で、アルゴリズムチートシートで適切な手法を選択できたり、豊富なアルゴリズムを利用できます。

【アルゴリズムチートシート】
https://scikit-learn.org/stable/machine_learning_map.html

一方、Pycaretは、機械学習モデルの設計や構築のプロセスを自動化してくれる技術『AutoML(Automated Machine Learning)』をサポートしていますので、scikit-learn等の他の機械学習ライブラリでは数百行に及ぶコードを記述する必要があるところを、PyCaretでは数行に短縮!できます。

実は、Pycaretは、scikit-learnのラッパーでもあります。

『データサイエンスチュートリアル オフィシャルテキスト2』では、seabornを使いましたが、Pycaretはもう少し大掛かりなラッパーです。scikit-learn、XGBoost、LightGBM、CatBoost、spaCy、Optuna、Hyperopt、Ray等の様々なライブラリのラッパーとして機能します。

https://datascience.official.ec/items/88444629

seabornは、matplotlibよりも簡単に、自動的に見栄えのするグラフを描いてくれましたが、それはPycaretでも同様です。

機械学習は、下記の枠で囲んだステップを経て最適なモデルで予測を行いますが、そのステップはほぼ一つの関数でコードを書くことができます。

PyCaretは、驚くほど、短いコード(大抵は1行)でコードを書くことができます。

これは、Pycaretの公式ドキュメントに記載があるように、Pycaretは『シチズンデータサイエンティスト』のために開発されたものだからです。Pycaretを使うのは、多くのコードを使った精密な分析が目的ではなく、広く用いられる手法で出た結果を解釈し、ビジネスで活用できる知見・洞察を得ることが目的です。

【公式ドキュメント】 https://pycaret.gitbook.io/docs

この新たな概念『シチズンデータサイエンティスト』は、営業、マーケティング、財務、人事などの部門で、先進的なデータ分析や予測・意思決定のための分析を活用して、意思決定や課題解決にデータを活かせる人材のことです。データサイエンスの専門家ではないものの、データ分析スキルを活かしてビジネスに貢献する人材です。さらには、データ活用の民主化を促し、業務効率化やデータ活用促進に貢献します。

すまわち、『4th STEP 機械学習』は、『Pycaret(パイカレット)』を用い、『シチズンデータサイエンティスト』のために、機械学習によるデータ分析をビジネスに活かす手法を解説するものです。

参考までに、日本においても、IPA(独立行政法人 情報処理推進機構)がデータサイエンティストを3つに分類していて、それぞれ下記の枠で囲んだスキルセットを身につけることを要求しています。その中で『データビジネスストラジスト』が『シチズンデータサイエンティスト』に近いものです。点線で囲った下記の国家資格が『データビジネスストラジスト』に必要な資格となります。

● ITストラテジスト試験
● 応用情報技術者試験
● プロジェクトマネージャ試験

まずは、Pycaretで機械学習の扉を開いてみましょう。

profile-image

すべてのビジネスパーソンが意思決定プロセスにデータを活用する思考を身につけ、ブルシットジョブ(クソどうでも いい仕事)をこの世からなくしていきましょう! 1st STEPが書籍になりました! https://amzn.to/3TrhoPt 2nd STEPも発刊しました! https://amzn.to/42UgXSY

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

4th STEP 機械学習 Section 3 分析ツール データサイエンス チュートリアル 1

2.

4th STEP 機械学習 Section3 分析ツール 機械学習を体験するための分析環境 4th STEPでは、PyCaret(パイカレット)を使用して機 械学習を体験していきます。 PyCaretインストールの後、「分類」の場合、次のような段階を 経て最適なモデルで予測を行います。 PyCaretのインポート PyCaretは、Pythonで作られたオープンソースの機械学習 ライブラリであり、機械学習プロセスの自動化を行う 『AutoML』をサポートしています。 他のオープンソースの機 械学習ライブラリでは数百行に及ぶコードを記述する必要が あるところを、PyCaretでは数行に短縮!できます。 PyCaretは、scikit-learn、XGBoost、LightGBM、 CatBoost、spaCy、Optuna、Hyperopt、Ray等の 様々なライブラリのラッパーとして機能します。これは seabornと同様です。 → 『2nd STEP Section 13 どのような集計をして、グラフを描くのか? (#15)』の「スライド7」を参照 前処理 Setup モデルの評価・比較 Compare Models モデルの分析 Analyze Model 予測 Prediction モデルの保存 Save Model データサイエンス チュートリアル 2

3.

4th STEP 機械学習 Section3 分析ツール PyCaretの魅力 驚くほど、短いコード(大抵は1行)で、次の機械学習のワークフローをこなしてくれるのが、 最大の魅力です。 前処理 訓練データとテストデータの分割、欠損値の補完、カテゴリ変数のエンコーディング(規則に 従って別の形式に変換)、特徴量のスケーリング(正規化or標準化)、交差検証等 1行でやってくれる!しかも勝手に最適な方法で。 モデルの評価・比較 10種類以上のモデルの性能評価を1行でやってくれる! しかも、最も良いモデルを選んでくれる モデルの分析 モデル分析(モデルがどのような性質のものか)を1行でやってくれる! データサイエンス チュートリアル 3

4.

4th STEP 機械学習 Section3 分析ツール シチズンデータサイエンティストを目指す The design and simplicity of PyCaret are inspired by the emerging role of citizen data scientists, a term first used by Gartner. 【和訳】 PyCaretのデザインとシンプルさは、ガートナーが初めて使用した用語である『シチズンデータサイエンティスト』と いう新しい役割にヒントを得ています。 『4th STEP 機械学習』は、PyCaretを用いて、この『シチズンデータサイエンティスト』を目 指すために企画しました。シチズンデータサイエンティストにとっては、コードを覚えるよりも、分 析結果をビジネスに活かすことの方が重要です。 営業、マーケティング、財務、 人事などの部門で、先進的な データ分析や予測・意思決定 の機能を活用して機械学習モ デルを構築できる人材 データサイエンス チュートリアル 4

5.

4th STEP 機械学習 Section3 分析ツール 【参考】 日本版シチズンデータサイエンティスト が定める *デジタルスキル標準(DSS)によるデータサイエンティストは、下 記の3つに分類でき、それぞれ右記のグラフのようなスキルセットを要 求しています。 *経済産業省が定めたDX化が求められる現代で求められるスキルや指針 シチズンデータサイエンティストは、データビジネスストラテジストに 近いものです。 ●は、対応する国家資格 データビジネスストラテジスト ● ITストラテジスト試験 ●応用情報技術者試験 ● プロジェクトマネージャ試験 情報処理推進機構が 定めたスキル項目一覧 から、筆者が標準化など を行い算出 データサイエンスプロフェッショナル ● 応用情報技術者試験 データエンジニア ● システムアーキテクト試験 ● 応用情報技術者試験 ● データベーススペシャリスト試験 データサイエンス チュートリアル 5