#9 数値の最大値の求め方

>100 Views

September 07, 23

スライド概要

データサイエンス体験動画「データサイエンス チュートリアル 猫のタロー編」の第9回目は「数値の最大値の求め方」です。

以前のデータの確認では、データ数を確認するだけでしたが、最大値、最小値、平均などの要約統計量を確認することも重要です。

今回は、最大値を中心に、平均や標準偏差、最大値、最小値、中央値などの要約統計量を求める方法を解説します。

⑭ データ名["列名"].max(axis=0)
⑮ データ名.describe()
⑯ print(データ名[“列名“])
⑰ データ名.sort_values(“列名",ascending=False)

■この動画のブログ

データサイエンス チュートリアル
https://tutorial4datascience.blogspot.com/

profile-image

すべてのビジネスパーソンが意思決定プロセスにデータを活用する思考を身につけ、ブルシットジョブをこの世からなくしていきましょう!

関連スライド

各ページのテキスト
1.

1 1st STEP ビッグデータの 読み込みとデータの確認 Section 7 数値の最大値の求め方 ⑭ データ名[“列名"].max(axis=0) ⑮ データ名.describe() ⑯ print(“列名") ⑰ データ名.sort_values(“列名",ascending=False) 1

2.

2 Section 7 列の数値の最大値の求め方 1.数値の最大値の求め方 まずは、「Quantity」の最大値を見てみましょう。 最大値を表示するには、次のようなプログラムを書きます。 ⑭ データ名[“列名"].max(axis=0) →maxの後の(axis=0)は、指定した列名、すなわち縦に見て、最大値を探してきま す。 ちなみに、(axis=1)とすると行、すなわち横に見て最大値を表示します。この場合、 「列名」を指定していますので、id_pos["Quantity"].max(axis=1)とすると、 エラーになってしまいます。 また、maxはデフォルトで列方向の最大値を求めますから(axis=0)、 「データ名[“列名”].max()」でも同じ結果が出ます。 ※ 列方向(縦)がaxis=0、行方向(横)がaxis=1 maxの他にも、min(最小値)、mean(平均)、sum(合計)を使うこともできます。

3.

3 Section 7 列の数値の最大値の求め方 2.要約統計量(平均、標準偏差など)を取得 各列ごとに平均や標準偏差、最大値、最小値、中央値などの要約統計量を一気に取 得できます。この際、欠損値(NaN)がある場合は、除外されて算出されます。 ⑮ データ名.describe() →[ ]で列名を指定せず、上記のプログラムを実行すると、数値(データ型がint、 float)の列の下記の値(要約統計量)を取得できます。 count データの数 mean 平均値 std 標準偏差 min 最小値、 25% 第一四分位数(下位の中央値、中央値より小さい方のデータの中央値) 50% 第二四分位数(中央値) 75% 第三四分位数(上位の中央値中央値より大きい方のデータの中央値) max 最大値

4.

4 Section 7 列の数値の最大値の求め方 3.出力 print( )の( )に、文字列、数値、行、列などを記入すると、その値を出力することができま す。 本講座ではコラボを用いていますが、自分のPCにPythonをインストールする際は、正しく インストールされているかを確認するために、「print(Hallow)」とプログラムを書き、Hallow と表示させることが第一歩として他の参考書には書かれていることが多いものです。 ここでは、「print( )」を使って、データの特定の列名を表示させてみましょう。 ⑯ print(データ名[“列名“]) →指定した列名のデータを取得します。ただし、表示はインデックスの最初の5行と 最後の5行となります。

5.

5 Section 7 列の数値の最大値の求め方 4.ソート(並び替え) 数値でできた列は、「sort_values」を使い、昇順(小さい順)と降順(大きい順)に 並べ替えることができます。 指定した列を降順に表示させるには、次のようなプログラムを書きます。 ⑰ データ名.sort_values(“列名",ascending=False) →( )内の「“列名”.」に続き、「ascending=」で、昇順、降順を指示します。 昇順は、 「ascending=True」、降順は「ascending=False」と書きます。 デフォルトは昇順ですので、「データ名.sort_values(“列名“)」とすれば、昇順に ソートできます。

6.

6 Section 7 列の数値の最大値の求め方 ⑭ データ名["カラム名"].max(axis=0) 列名「Quantity」の最大値を表示してみましょう。 80995と出ました。1回の発注量としては多い気がします。

7.

7 Section 7 列の数値の最大値の求め方 ⑮ データ名.describe() ⑮で、要約統計量(平均、標準偏差など)を取得しましょう。 最小値(min)が、「-80995」となっています。最大値と絶対値が同じですから、返品 された可能性があります。

8.

8 Section 7 列の数値の最大値の求め方 ⑯ print(“列名") 発注量(「Quantity」)の最大値と最小値が同一顧客(「CustomerID」)であれば、 誤発注と返品である可能性があります。「Quantity」と「CustomerID」を取り出して確認 してみましょう。 最初と最後の5行では、発注量の最大値を見ることができません。

9.

9 Section 7 列の数値の最大値の求め方 ⑰ データ名.sort_values(“列名” ,ascending=False) CustomerID 16446が、2011年12月9日 9:15にご発注して、同じ日の9:27に 返品した可能性が大きいですね。