#34 データの修正・保存

240 Views

February 28, 24

#データ分析 #データ加工 #Python #医療データ #データ保存

スライド概要

今回は、NDBオープンデータのホームページにあるデータを一気に保存します。その前にデータ型の変更や、結合した時にどのファイルだったかをわかるように、フラグを立てておきます。

そのために、下記のようなプログラムを解説していきます。

● 要素がすべて同じ文字からなる列を追加する
　　データ名[[“列名1”, “列名2”, …]] = [“文字1”, “文字2”, …]

● データ型を変更する（復習）
　　⑱ データ名.astype({“列名1”:データ型, “列名2”:データ型,…})

★この動画のブログ

■ データサイエンスチュートリアル
https://tutorial4datascience.blogspot.com/

猫のタロー

@Cat_Taro

スライド一覧

すべてのビジネスパーソンが意思決定プロセスにデータを活用する思考を身につけ、ブルシットジョブ（クソどうでもいい仕事）をこの世からなくしていきましょう！ 1st STEPが書籍になりました！ https://amzn.to/3TrhoPt

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

データサイエンス関連資格

猫のタロー 49.5K

データサイエンス関連の資格_後編

猫のタロー 3.9K

データサイエンス関連資格_前編

猫のタロー 1.9K

#32 NDBオープンデータとは

猫のタロー 506

#33 URLからデータを読み込む

猫のタロー 371

#40 都道府県別人口データを作成

猫のタロー 307

各ページのテキスト

1 3rd STEP 応用編医療 Section 3 データの修正・保存 84 データ名[[“列名1”, “列名2”, …]] = [“文字1”, “文字2”, … ] 84’ データ名[[“列名1”, “列名2”, …]] = [数字1, 数字2, …]

2 Section 3 データの修正・保存１．データ型の確認前回、読み込んだデータのデータ型を確認します。 ●「薬効分類」、「薬効分類名称」、「医薬品コード」、「医薬品名」、「薬価基準収載医薬品コード」、「後発品区分」は、記号ですから文字列型（object、正確にはstr） ● 「総計」、「都道府県番号」の列は薬価（医薬品の価格）ですから、浮動小数点（float）にしておかないと、後々の集計プログラムがうまく作動しません。ただし、「総計」、「都道府県番号」の列は、一見して浮動小数点になっていますので、データ型はそのままにしておきます。これは、欠損値（NaN）が混ざっているために起こります。後でまとめて欠損値の処理を行います。欠損値が混ざっていると、dtypesで求めたデータ型は objectと表示されます（1st STEP 「Section 5 データ型」を参照）。

3 Section 3 データの修正・保存２．データ型の変更 1st STEPで習得した⑱を用いて、データ型を修正します。 ⑱ データ名.astype({“列名1”:データ型, “列名2”:データ型, …}) ※ 列名「薬効分類」が小数点以下が「0」になっていて見にくいのですが、後で修正します。

4 Section 3 データの修正・保存プログラム解説1 列を追加要素がすべて同じ文字からなる列を追加するには、プログラム84を用います。 84 データ名[[“列名1”, “列名2”, …]] = [“文字1”, “文字2”, …] ちなみに、同じ数字（整数や浮動小数点）からなる列を追加する場合は、下記のようになります。 84’ データ名[[“列名1”, “列名2”, …]] = [数字1, 数字2, …]

5 Section 3 データの修正・保存３．列の追加「Section 1」スライド8には24個のExcelファイルがあります。最終的には、それらを結合して一つのデータを作成しますので、「年度」や「剤型と医薬品の購入場所」がわかるように列を追加しておきます。これを「フラグを立てる」と言います。

6 Section 3 データの修正・保存４．データの保存 Googleドライブ内に「データ」フォルダーを作成し、出来上がったデータに「H26_内服外来院内」という名称を付けて、csv形式で保存します。

7 Section 3 データの修正・保存５．他のデータの読み込み・修正・保存以下、「Section 1」スライド8のURLを、順次読込んでいきます。全部で24個！頑張りましょう。プログラム内に、「#H26」等と年を記載しておくとわかりやすくなります。 ※第1回目だけが「外来院内」と「外来院外」の順番が異なっていることに注意しましょう。