#5 読み込んだデータの確認(1)

>100 Views

September 07, 23

スライド概要

データサイエンス体験動画「データサイエンス チュートリアル 猫のタロー編」の第5回目は、読み込んだデータの確認(1)を説明します。まずは、データの目視確認です。下記のプログラムを使って、データを目視確認する方法を解説します。

③ 「データ名」
④ 「データ名」.head()
⑤ 「データ名」.tail()

また、理解を深めるために、下記の知識を身に付けていきます。

●コラボ(GoogleColab)のランタイムリセットの対処方法
●Pandasのデータ構造であるDataFrameの概要

■この動画のブログ

データサイエンス チュートリアル
https://tutorial4datascience.blogspot.com/

profile-image

すべてのビジネスパーソンが意思決定プロセスにデータを活用する思考を身につけ、ブルシットジョブをこの世からなくしていきましょう!

関連スライド

各ページのテキスト
1.

1 1st STEP ビッグデータの 読み込みとデータの確認 Section 3 読み込んだデータの確認(1) ③ 「データ名」 ④ 「データ名」.head() ⑤ 「データ名」.tail()

2.

2 Section 3 読み込んだデータの確認(1) 1.データの目視確認 読み込んだデータ、処理をしたデータは必ず目視確認するようにしましょう!正確な分析 をする上での基本です。 データを目視確認する主な方法は、次の3つです。 ③ 「データ名」 → この場合は、最初と最後の5行が表示されます。 ④ 「データ名」.head() → この場合は最初の5行が表示されます。()内に任意の数字を半角で記入す ると、その行数が表示されます。 ⑤ 「データ名」.tail() → この場合は最後の5行が表示されます。()内に任意の数字を半角で記入 すると、その行数が表示されます。

3.

3 Section 3 読み込んだデータの確認(1) 2.ランタイムリセット 接続(セッション)が切れてから90分経過するとランタイムがリセット(実行環境の接 続が切れて初期化)されます。 打ち込んだプログラム自体は、「ファイル」→「保存」で保存されますが、ランタイムリセット されると使えなくなるのは、下記のようなものです。 ● ● ● ● ● 実行中プログラムやimportされたパッケージ、使用した変数 GoogleColabへアプロードしたファイル インストールしたパッケージ ! pip install などでインストールしたパッケージです GoogleColabがマウントしたGoogleドライブ これは、コラボが仮想サーバーという仕組みを使っているからです。

4.

4 Section 3 読み込んだデータの確認(1) 2.ランタイムリセットの対処方法 上部の「ランタイム」をクリックして、「再起動してすべてのセルを実行」をクリックしましょう。 すべてのセルが実行終了するまで、しばらく、待ちましょう!

5.

5 Section 3 読み込んだデータの確認(1) ③ 「データ名」 「コードセル」に、③を書いていきましょう。Section 3でデータ名は、「id_pos」としました ね。 「enter」+「shift」を同時に押すとデータの概要が表示されます。 ★結果表示の最後に、「541909 rows × 8 columns」とあります。これにより、 541,909行×8列 のデータであることが分かります。また、インデックスは、「0」からは じまりますので、最後のインデックスが「541908」ということは、 541,909行あることに なります。

6.

6 Section 3 読み込んだデータの確認(1) ④ 「データ名」.head() ⑤ 「データ名」.tail() ③の結果と同様なデータであることがわかりますね。

7.

7 Section 3 読み込んだデータの確認(1) 3.結果のデータ構造 ③、④、⑤を実行した結果は、 Section 2で読み込んだライブラリPandasの DataFrameと呼ばれるデータ構造で、複数の行と列が存在するExcelなどの表計算ソフ トのデータにとても良く似ています。 スライド3に出てきた「541909 rows × 8 columns」で、 rowsは英語で行、 columnsは列という意味です。 また、一番左の列は「インデックス」、一番上の行は「列名」と呼ばれます。 インデックス 列名