#48 Section４分類（１）教材の用意＆PyCaretのインストール／インポート

>100 Views

February 04, 26

#機械学習 #分類 #PyCaret #二項分類 #チュートリアル

スライド概要

本セクションでは、PyCaretを用いた『二項分類（Binary Classification）』の実装手順を解説します。

二項分類とは、データを『陽性・陰性』や『合格・不合格』のように2つのグループに分ける手法です。

1. 環境構築のポイント
学習には公式サイトのチュートリアルをGoogle Colabにコピーして使用します。Colab環境では!pip install pycaret[full]によるフル版のインストールが必要です。多機能ゆえに依存関係で『セッションの再起動』を求められることがありますが、再起動すれば正常に動作します。環境構築にややコツが要る点が普及の壁となっていますが、一度整えば強力な武器になります。

2. データの構造と予測の仕組み
教材の糖尿病データでは、検査値などの『原因』にあたる説明変数から、発症の有無（0または1）という『結果』を示す目的変数を予測します。この変数間の関係性を学習させることで、客観的な予測モデルを構築する流れを体験します。

猫のタロー

@Cat_Taro

スライド一覧

すべてのビジネスパーソンが意思決定プロセスにデータを活用する思考を身につけるため、まずは、データサイエンスの分析を体験していきましょう。SECIモデルの最初の段階、共同化（Socialization）からはじめていきます。下記のブログで、ここにアップしたスライド、動画を随時、公開中です。【ブログ】https://tutorial4datascience.blogspot.com/ 【Youtubeチャンネル】https://www.youtube.com/@DataScience_for_everyone 【Kindle】そして、このブログをまとめて書籍にしました！　　https://amzn.to/4ryVppn 　　https://amzn.to/4pGgFb1

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

データサイエンス関連資格

猫のタロー 49.8K

データサイエンス関連の資格_後編

猫のタロー 4.2K

データサイエンス関連資格_前編

猫のタロー 2K

#73 【解決編】 PythonとPyCaretのバージョン問題

猫のタロー 1K

#32 NDBオープンデータとは

猫のタロー 621

#33 URLからデータを読み込む

猫のタロー 421

各ページのテキスト

4th STEP 機械学習 Section ４分類（１）教材の用意＆PyCaretのインストール／インポートデータサイエンスチュートリアル 1

4th STEP 機械学習 Section４分類（１）教材の用意＆PyCaretのインストール／インポート営業、マーケティング、財務、人事などの事業部門に在籍し、シチズンデータサイエンティストを目指すみなさん！ここからいよいよコードの解説に入ります。業務革新の強力な武器となる機械学習を身に付けていくための第一弾として、教師あり学習の分類を取り上げます。今回、PyCaretの公式チュートリアルを教材に選びましたが、PyCaretは数百行のコードを数行に置き換えることができるローコードライブラリですので、覚えるコードはそれほどありません。その代わりに、PyCaretが予測の途中でどのような処理や計算をしているかをしっかりと学んでいきましょう。そのことが、出来上がった予測モデルの性能を把握することにつながります。前世はデータサイエンティストだった猫のタローデータサイエンスチュートリアル 2

4th STEP 機械学習 Section４分類（１）教材の用意＆PyCaretのインストール／インポート PyCaretのホームページ (1) まずは、教材の準備をしていきます。 PyCaretのホームページから『DOCS』をクリックし、さらに『Tutorials』をクリックします。 https://pycaret.org/ https://pycaret.gitbook.io/docs データサイエンスチュートリアル 3

4th STEP 機械学習 Section４分類（１）教材の用意＆PyCaretのインストール／インポート PyCaretのホームページ (2) 『Tutorials』にある『Binary Classification』の『Quick start』の部分を今回の教材にします。『Binary Classification』は、の一種で、各データを2つのカテゴリーに分類するものです。日本語では、『二項分類』と呼びます。二項分類は、次のような場合に使われます。 1．臨床検査で患者が特定の疾病に罹患しているか否かで分類する 2．ある製品が出荷できる品質か、それとも捨てるべきかの判断 3．あるページや記事を検索結果に含めるか否か 4．メールがスパムかどうかを判定するデータサイエンスチュートリアル 4

4th STEP 機械学習 Section４分類（１）教材の用意＆PyCaretのインストール／インポート PyCaretのホームページ (3) 『Colab』をクリックすると、『Google Colaboratory（以後「Colab」と省略）』の『Tutorial - Binary Classification』という名前のノートブックが現れます。この状態では、まだGoogleドライブに保存されているわけではありませんので、『ドライブにコピー』をクリックします。これで、教材の準備は完了です。データサイエンスチュートリアル 5

4th STEP 機械学習 Section４分類（１）教材の用意＆PyCaretのインストール／インポート PyCaretのインストール／インポート (1) この教材では、既にコードが書いてありますから、それを見ていきながら、何をやっているのか理解していきましょう！ Colabには、PyCaretがインストールされていませんので、先ずはPyCaretをインストールしましょう。通常の『!pip install paycaret』では、すべてのものをインストールすることはできません。 paycaretに続けて[full]を書くとフルバージョンをインストールすることができます。『!pip install paycaret[full] 』を記入その後、実行します。結構なパーツが含まれていますから、数分待つことになります・・・データサイエンスチュートリアル 6

4th STEP 機械学習 Section４分類（１）教材の用意＆PyCaretのインストール／インポート PyCaretのインストール／インポート (2) ColabでPyCaretをインポートすると、数分経過してから下記のように『セッションを再起動する』とのアラームが出てきます。 Colabは最新に近いパーツで動いていますが、PyCaretはその最新のパーツに対応していないためです。でも、ご安心を！『セッションを再起動する』をクリックして、再起動すれば、PyCaretは問題なく稼働します。とは言え、2024年に入ってから3度のマイナーチェンジをしているので、PyCaretの進化が追いつく努力は続けれらています。 Release情報 https://github.com/pycaret/pycaret/releases PyCaretは、非常に多くのパーツから成り立っているため、分析環境を構築するために多くの努力が必要とされます。これが、いまいち普及が進まない原因です。解説本も少ない！通常は、『python3 virtualenv』、『Anaconda』等を使って、仮想環境を作ります（ここでは割愛します）。データサイエンスチュートリアル 7

https://github.com/pycaret/pycaret/releases

4th STEP 機械学習 Section４分類（１）教材の用意＆PyCaretのインストール／インポート分析データを読み込む次に分析するデータを読み込みます。 PyCaretには、『diabetes』という糖尿病患者の検査、診断データが入っていますので、それを下記のようなコードで読み込み、表示させます。得られたデータを『data』と宣言しています。データの詳細は、次ページで解説します。データサイエンスチュートリアル 8

4th STEP 機械学習 Section４分類（１）教材の用意＆PyCaretのインストール／インポートデータ「diabetes」の詳細経口ブドウ糖負荷試験における 2時間後の血漿グルコース濃度妊娠回数拡張期血圧上腕三頭筋の皮下脂肪厚説明変数目的変数（予想するモノ） BMI=体重(kg)/身長(m)2 BMI 糖尿病家系機能年齢クラス変数 1：糖尿病診断陽性 0：糖尿病診断陰性 2時間血清インスリン糖尿病家系指数人の年齢と家族歴に基づいて糖尿病を発症する可能性を推定する指数。高いほど、糖尿病を発症する可能性が高くなります。データサイエンスチュートリアル 9

#48 Section４ 分類（１） 教材の用意＆PyCaretのインストール／インポート