投稿

ラベル(応用編)が付いた投稿を表示しています

#35 データの結合

イメージ
前回取り込んだ24個のExcelファイルを、年度ごとの推移を分析するために「 concat 」を使って、結合していきます。 その過程で、 ワイルドカード 、 forループ 、 リスト内包表記 という便利な機能も使っていきますので、しっかりと身に付けていきましょう。 ● 特定のファイルのパス名とファイル名を取得する     85. glob.glob(‘ファイルのパス/ファイル名.ファイル形式’) ● データを単純に結合する     86. pd.concat([データ名1, データ名2, …],  ignore_index=True) ● 繰返し処理する      87. for イテレーター in イテラブルオブジェクト:                   処理1                   処理2                   ・・・ ● 末尾(最後)に要素を追加する      88. リスト名.append(引数)  ● リスト内包表記     pd.concat((pd.read_csv(i) for i in all_files), ignore_index=True) ************ ■ まずは、下記の 動画 (8分24秒)をご覧ください。 ■ 次にプログラムの 解説 を自分のペースで読みましょう。 下記のスライドを参照してください。 #35 データの結合 by @Cat_Taro ************ ★参考資料 ■ concatのイメージ by shunさんの「データサイエンスの道標」 https://datasciencemore.com/python-pandas-concat/ ■ [解決!Python]内包表記でリストを作成するには https://atmarkit.itmedia.co.jp/ait/articles/2106/29/news021.html ************ ■ このセクションのプログラムは下記のようになります。    実際に、コピペして コラボ で試してみましょう! import glob all_files = glob.glob('/content/drive/MyDrive/Colab Notebooks/医療/データ/*.csv') all_

#34 データの修正・保存

イメージ
今回は、NDBオープンデータのホームページにあるデータを一気に保存します。その前にデータ型の変更や、結合した時にどのファイルだったかをわかるように、フラグを立てておきます。 そのために、下記のようなプログラムを解説していきます。 ● 要素がすべて同じ文字からなる列を追加する    84 データ名[[“列名1”, “列名2”, …]] = [“文字1”, “文字2”, …] ● データ型を変更する(復習)    ⑱ データ名.astype({“列名1”:データ型, “列名2”:データ型,…}) ************ ■ まずは、下記の 動画 (4分29秒)をご覧ください。 ■ 次にプログラムの 解説 を自分のペースで読みましょう。 下記のスライドを参照してください。 #34 データの修正・保存 by @Cat_Taro ************ ■ このセクションのプログラムは下記のようになります。    実際に、コピペして コラボ で試してみましょう! df1_1.dtypes df1_2 = df1_1.astype({"薬効分類":"str","医薬品コード":"str", "後発品区分":"str"}) df1_2.head() df1_3 = df1_2.copy() df1_3[["年度", "剤型_場所"]] = ["H26", "内服外来院内"] df1_3 df1_3.to_csv('/content/drive/MyDrive/Colab Notebooks/医療/データ/H26_内服外来院内.csv') # H26 url2 = "https://www.mhlw.go.jp/file/06-Seisakujouhou-12400000-Hokenkyoku/0000139844.xlsx" df2 = pd.read_excel(url2, skiprows=[0, 1, 3], dtype = {"薬効\n分類":"object&quo

#33 URLからデータを読み込む

イメージ
今回は、NDBオープンデータのホームページにあるデータを読込み、見やすい形に整形していきます。 そのために、下記のようなプログラムを解説します。 ● ホームページからダウンロードできるExcelファイルを読み込む   80   url = “Excelファイルのありか"     データ名 = pd.read_excel(url) ● Excelの最初の何行かを読み飛ばす「skiprows」、「skipfooter」   81  skiprows=[数字1, 数字2, 数字3, …] ● データの列名を変更する「rename」   82  データ名.rename(index={古い行名1:新しい行名1,…},         columns={古い列名2:新しい列名2,…}) ● 文字列を上下と同じように埋める「fillna」   83  データ名 ["薬効分類"].fillna(method='ffill') ************ ■ まずは、下記の 動画 (8分42秒)をご覧ください。 ■ 次にプログラムの 解説 を自分のペースで読みましょう。 下記のスライドを参照してください。 #33 データの読み込み by @Cat_Taro ************ ■ このセクションのプログラムは下記のようになります。    実際に、コピペして コラボ で試してみましょう! import pandas as pd import numpy as np url1 = "https://www.mhlw.go.jp/file/06-Seisakujouhou-12400000-Hokenkyoku/0000139842.xlsx" df = pd.read_excel(url1) df.head() url1 = "https://www.mhlw.go.jp/file/06-Seisakujouhou-12400000-Hokenkyoku/0000139842.xlsx" df1 = pd.read_excel(url1, skiprows=[0, 1, 3]) df1.head() df1_1 = df1.rename(columns={"薬効

#32 NDBオープンデータとは

イメージ
初めに「 NDBオープンデータ 」とは何かを説明します。 今回分析の対象とする「薬剤」の「都道府県別薬効分類別数量」のURL一覧もGoogleIDを持っていて、共有許可をしていただければ、ダウンロードできますのでご活用ください。 ■  まずは、 PowerPoint(パワポ) の資料をお読みください! #32 NDBオープンデータとは by @Cat_Taro ■ 次に、 下記の 動画 (5分3秒)で復習しましょう。   ★参考資料 ■ 利用を検討している方々へのマニュアル https://www.mhlw.go.jp/content/12400000/001162218.pdf ■ NDBオープンデータ分析サイト https://www.mhlw.go.jp/ndb/opendatasite/index.html ■ NDBオープンデータ https://www.mhlw.go.jp/stf/seisakunitsuite/bunya/0000177182.html ■ 【分析で使う資料】 「薬剤」→「都道府県別薬効分類別数量」→「内服」のURL https://docs.google.com/spreadsheets/d/12LcE067zroTxUihek7xO2qjrylyRQNVe/edit?usp=drive_link&ouid=106292536926943509337&rtpof=true&sd=true

#31 3rd STEP開始します!

イメージ
はじめまして! タローの弟子の 小次郎 です。 これから、タローに代わり、ガイド役をいたします。 データサイエンス チュートリアルの基礎編(1st STEP、2nd STEP)は、いかがでしたか? この3rd STEP「 応用編 医療 」では、いままで身に付けたスキルを基にNDBオープンデータを使いやすく加工して、分析していきましょう。 なぜ、医療データを選んだかって? それは、医療分野は使える データが豊富 にあるからです。また、 体系化されているマスター も完備されでいます。特殊なものと思われていますが、 医学的知識は最小限で十分 です。 医療分野での 活躍の機会も数多く ありますから、みなさんも、チャレンジしてみてください。 オープンデータは 練習用の素材 になるだけでなく、分析することによって 社会貢献 にも役立ちます。