#33 URLからデータを読み込む
今回は、NDBオープンデータのホームページにあるデータを読込み、見やすい形に整形していきます。
そのために、下記のようなプログラムを解説します。
● ホームページからダウンロードできるExcelファイルを読み込む
80 url = “Excelファイルのありか"
データ名 = pd.read_excel(url)
● Excelの最初の何行かを読み飛ばす「skiprows」、「skipfooter」
81 skiprows=[数字1, 数字2, 数字3, …]
● データの列名を変更する「rename」
82 データ名.rename(index={古い行名1:新しい行名1,…},
columns={古い列名2:新しい列名2,…})
● 文字列を上下と同じように埋める「fillna」
83 データ名 ["薬効分類"].fillna(method='ffill')
************
■まずは、下記の動画(8分42秒)をご覧ください。
■次にプログラムの解説を自分のペースで読みましょう。下記のスライドを参照してください。
************
■このセクションのプログラムは下記のようになります。
実際に、コピペしてコラボで試してみましょう!
import pandas as pd import numpy as np
url1 = "https://www.mhlw.go.jp/file/06-Seisakujouhou-12400000-Hokenkyoku/0000139842.xlsx" df = pd.read_excel(url1) df.head()
url1 = "https://www.mhlw.go.jp/file/06-Seisakujouhou-12400000-Hokenkyoku/0000139842.xlsx" df1 = pd.read_excel(url1, skiprows=[0, 1, 3]) df1.head()
df1_1 = df1.rename(columns={"薬効\n分類": "薬効分類", "医薬品\nコード":"医薬品コード", "薬価基準収載\n医薬品コード":"薬価基準収載医薬品コード", "後発品\n区分":"後発品区分"}) df1_1.head()
df1_1["薬効分類"]=df1_1["薬効分類"].fillna(method='ffill') df1_1["薬効分類名称"]=df1_1["薬効分類名称"].fillna(method='ffill') df1_1.head()
コメント
コメントを投稿