#48 Section4 分類(1) 教材の用意&PyCaretのインストール/インポート

>100 Views

February 04, 26

スライド概要

ここからいよいよコードの解説に入ります。

PyCaretが予測の途中でどのような処理や計算をしているかをしっかりと学んでいきましょう。

まずは、教材の準備をしていきます。

PyCaretのホームページから『DOCS』をクリックし、さらに『Tutorials』をクリックします。

【PyCaretホームページ】 https://pycaret.org/
【DOCS】 https://pycaret.gitbook.io/docs
【Tutorials】 https://pycaret.gitbook.io/docs/get-started/tutorials

『Tutorials』にある『Binary Classification』の『Quick start』の部分を今回の教材にします。

『Binary Classification』は、『教師あり学習』に属する『分類』の一種で、各データを2つのカテゴリー、例えば、「陽性」or「陰性」、「出荷可能」or「出荷不可」のように二つのグループに分類するものです。日本語では、『二項分類』と呼びます。

次のような用途で使われます。

1.臨床検査で患者が特定の疾病に罹患しているか否かで分類する
2.ある製品が出荷できる品質か、それとも捨てるべきかの判断
3.あるページや記事を検索結果に含めるか否か
4.メールがスパムかどうかを判定する

『Binary Classification』の『Colab』をクリックすると、『Google Colaboratory(以後「Colab」と省略)』の『Tutorial - Binary Classification』という名前のノートブックが現れます。この状態では、まだGoogleドライブに保存されているわけではありませんので、『ドライブにコピー』をクリックします。

『Tutorial - Binary Classification.ipynb のコピー』となっていますので、『Binary Classification』というファイル名にしておきましょう。

また、読み込みに時間がかかるので『Detailed function-by-function overview』以下は、削除しておきます。『Quick start』の部分のみを使います。

ついでに、『マイドライブ』 → 『Colab Notebooks』のフォルダー内に、新しく『機械学習』というフォルダーを作成し、そこに『Tutorial - Binary Classification』を移動します。

これで、教材の準備は完了です。

さて、『Binary Classification』を実際に動かしてみましょう!

この教材では、既にコードが書いてありますから、それを見ていきながら、何をやっているのか理解していきましょう!

Colabには、PyCaretがインストールされていませんので、先ずはPyCaretをインストールしましょう。通常の『!pip install paycaret』では、すべてのものをインストールすることはできません。 paycaretに続けて[full]と書くとフルバージョンをインストールすることができます。既に書かれているインポートするためのコードの先頭に追加します。

その後、実行します。

結構なパーツが含まれていますから、数分待つことになります・・・

ColabでPyCaretをインポートすると、数分経過してから下記のように『セッションを再起動する』とのアラームが出てきます。Colabは最新に近いパーツで動いていますが、PyCaretはその最新のパーツに対応していないためです。

でも、ご安心を! 『セッションを再起動する』をクリックして、再起動すれば、PyCaretは問題なく稼働します。

とは言え、2024年に入ってから3度のマイナーチェンジをしているので、PyCaretの進化が追いつく努力は続けれらています。

Release情報
https://github.com/pycaret/pycaret/releases

PyCaretは、非常に多くのパーツから成り立っているため、分析環境を構築するために多くの努力が必要とされます。これが、いまいち普及が進まない原因です。解説本も少ない!

通常は、『python3 virtualenv』、『Anaconda』等を使って、仮想環境を作ります(ここでは割愛します)。

次に分析データを読み込みます。

PyCaretには、『diabetes』という糖尿病患者の検査、診断データが入っています。得られたデータを『data』と宣言し、それを下記のようなコードで読み込み、表示させます。

from pycaret.datasets import get_data
data = get_data('diabetes')

データの詳細は、下記のようになります。

1行が一人分のデータになっていて、様々な検査値や属性の列とともに、最後に『Class variable』の列があります。

『Class variable』は、日本語では『クラス変数』と訳し、下記の二つのクラス(グループ)のどちらかに属しているかを表しています。

1:糖尿病診断陽性
0:糖尿病診断陰性

また、様々な検査値や属性は説明変数、『クラス変数』は目的変数になっています。

説明変数とは「何かの原因となっている変数」のことで、目的変数は「その原因を受けて発生した結果となっている変数」のことです。機械学習では、目的変数は予測するモノを指しています。

最後は、『Binary Classification』がどのように動いていくかを動画で確認しましょう。

profile-image

すべてのビジネスパーソンが意思決定プロセスにデータを活用する思考を身につけ、ブルシットジョブ(クソどうでも いい仕事)をこの世からなくしていきましょう! 1st STEPが書籍になりました! https://amzn.to/3TrhoPt 2nd STEPも発刊しました! https://amzn.to/42UgXSY

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

4th STEP 機械学習 Section 4 分 類(1) 教材の用意&PyCaretのインストール/インポート データサイエンス チュートリアル 1

2.

4th STEP 機械学習 Section4 分類(1) 教材の用意&PyCaretのインストール/インポート 営業、マーケティング、財務、人事などの事業部門に在籍し、シチズン データサイエンティストを目指すみなさん! ここからいよいよコードの解説に入ります。 業務革新の強力な武器となる機械学習を身に付けていくための第一弾 として、教師あり学習の分類を取り上げます。 今回、PyCaretの公式チュートリアルを教材に選びましたが、PyCaretは 数百行のコードを数行に置き換えることができるローコードライブラリですの で、覚えるコードはそれほどありません。 その代わりに、PyCaretが予測の途中でどのような処理や計算をしている かをしっかりと学んでいきましょう。そのことが、出来上がった予測モデルの 性能を把握することにつながります。 前世はデータサイエンティストだった 猫のタロー データサイエンス チュートリアル 2

3.

4th STEP 機械学習 Section4 分類(1) 教材の用意&PyCaretのインストール/インポート PyCaretのホームページ (1) まずは、教材の準備をしていきます。 PyCaretのホームページから『DOCS』をクリックし、さらに『Tutorials』をクリックします。 https://pycaret.org/ https://pycaret.gitbook.io/docs データサイエンス チュートリアル 3

4.

4th STEP 機械学習 Section4 分類(1) 教材の用意&PyCaretのインストール/インポート PyCaretのホームページ (2) 『Tutorials』にある『Binary Classification』の『Quick start』の部分を今回の教材にします。 『Binary Classification』は、 の一種で、各データを2つのカテゴリーに分類するもの です。日本語では、『二項分類』と呼びます。 二項分類は、次のような場合に使われます。 1.臨床検査で患者が特定の疾病に罹患している か否かで分類する 2.ある製品が出荷できる品質か、それとも捨てるべ きかの判断 3.あるページや記事を検索結果に含めるか否か 4.メールがスパムかどうかを判定する データサイエンス チュートリアル 4

5.

4th STEP 機械学習 Section4 分類(1) 教材の用意&PyCaretのインストール/インポート PyCaretのホームページ (3) 『Colab』をクリックすると、『Google Colaboratory(以後「Colab」と省略)』の『Tutorial - Binary Classification』と いう名前のノートブックが現れます。この状態では、まだGoogleドライブに保存されているわけではありませんので、『ドライブにコ ピー』をクリックします。 これで、教材の準備は完了です。 データサイエンス チュートリアル 5

6.

4th STEP 機械学習 Section4 分類(1) 教材の用意&PyCaretのインストール/インポート PyCaretのインストール/インポート (1) この教材では、既にコードが書いてありますから、それを見ていきながら、何をやっているのか理解していきましょう! Colabには、PyCaretがインストールされていませんので、先ずはPyCaretをインストールしましょう。通常の『!pip install paycaret』では、すべてのものをインストールすることはできません。 paycaretに続けて[full]を書くとフルバージョンをイン ストールすることができます。 『!pip install paycaret[full] 』を記入 その後、実行します。 結構なパーツが含まれていますから、数分待つことになります・・・ データサイエンス チュートリアル 6

7.

4th STEP 機械学習 Section4 分類(1) 教材の用意&PyCaretのインストール/インポート PyCaretのインストール/インポート (2) ColabでPyCaretをインポートすると、数分経過してから下記のように『セッションを再起動する』とのアラームが出てきます。 Colabは最新に近いパーツで動いていますが、PyCaretはその最新のパーツに対応していないためです。 でも、ご安心を! 『セッションを再起動する』をクリックして、再起動すれば、PyCaretは問題なく稼働します。 とは言え、2024年に入ってから3度のマイナー チェンジをしているので、PyCaretの進化が追 いつく努力は続けれらています。 Release情報 https://github.com/pycaret/pycaret/releases PyCaretは、非常に多くのパーツから成り立っ ているため、分析環境を構築するために多く の努力が必要とされます。これが、いまいち普 及が進まない原因です。解説本も少ない! 通常は、『python3 virtualenv』、『Anaconda』等を 使って、仮想環境を作ります(ここでは割愛します)。 データサイエンス チュートリアル 7

8.

4th STEP 機械学習 Section4 分類(1) 教材の用意&PyCaretのインストール/インポート 分析データを読み込む 次に分析するデータを読み込みます。 PyCaretには、『diabetes』という糖尿病患者の検査、診断データが入っていますので、それを下記のようなコードで読み込み、 表示させます。得られたデータを『data』と宣言しています。データの詳細は、次ページで解説します。 データサイエンス チュートリアル 8

9.

4th STEP 機械学習 Section4 分類(1) 教材の用意&PyCaretのインストール/インポート データ「diabetes」の詳細 経口ブドウ糖負荷試験における 2時間後の血漿グルコース濃度 妊娠回数 拡張期血圧 上腕三頭筋の皮下脂肪厚 説明変数 目的変数 (予想するモノ) BMI=体重(kg)/身長(m)2 BMI 糖尿病家系機能 年齢 クラス変数 1:糖尿病診断陽性 0:糖尿病診断陰性 2時間血清インスリン 糖尿病家系指数 人の年齢と家族歴に基づいて糖尿病を 発症する可能性を推定する指数。高い ほど、糖尿病を発症する可能性が高くな ります。 データサイエンス チュートリアル 9