データサイエンスチュートリアル

投稿

2月, 2024の投稿を表示しています

#34 データの修正・保存

2月 28, 2024

今回は、NDBオープンデータのホームページにあるデータを一気に保存します。その前にデータ型の変更や、結合した時にどのファイルだったかをわかるように、フラグを立てておきます。そのために、下記のようなプログラムを解説していきます。 ● 要素がすべて同じ文字からなる列を追加する　　 84 データ名[[“列名1”, “列名2”, …]] = [“文字1”, “文字2”, …] ● データ型を変更する（復習）　　 ⑱ データ名.astype({“列名1”:データ型, “列名2”:データ型,…}) ************ ■ まずは、下記の動画（4分29秒）をご覧ください。 ■ 次にプログラムの解説を自分のペースで読みましょう。下記のスライドを参照してください。 #34 データの修正・保存 by @Cat_Taro ************ ■ このセクションのプログラムは下記のようになります。実際に、コピペしてコラボで試してみましょう！ df1_1.dtypes df1_2 = df1_1.astype({"薬効分類":"str","医薬品コード":"str", "後発品区分":"str"}) df1_2.head() df1_3 = df1_2.copy() df1_3[["年度", "剤型_場所"]] = ["H26", "内服外来院内"] df1_3 df1_3.to_csv('/content/drive/MyDrive/Colab Notebooks/医療/データ/H26_内服外来院内.csv') # H26 url2 = "https://www.mhlw.go.jp/file/06-Seisakujouhou-12400000-Hokenkyoku/0000139844.xlsx" df2 = pd.read_excel(url2, skiprows=[0, 1, 3], dtype = {"薬効\n分類":"object...

#33 URLからデータを読み込む

2月 22, 2024

今回は、NDBオープンデータのホームページにあるデータを読込み、見やすい形に整形していきます。そのために、下記のようなプログラムを解説します。 ● ホームページからダウンロードできるExcelファイルを読み込む　 80 　 url = “Excelファイルのありか" 　　　データ名 = pd.read_excel(url) ● Excelの最初の何行かを読み飛ばす「skiprows」、「skipfooter」　 81 　skiprows=[数字1, 数字2, 数字3, …] ● データの列名を変更する「rename」　 82 　データ名.rename(index={古い行名1：新しい行名1,…}, 　 columns={古い列名2：新しい列名2,…}) ● 文字列を上下と同じように埋める「fillna」　 83 　データ名 ["薬効分類"].fillna(method='ffill') ************ ■ まずは、下記の動画（8分42秒）をご覧ください。 ■ 次にプログラムの解説を自分のペースで読みましょう。下記のスライドを参照してください。 #33 データの読み込み by @Cat_Taro ************ ■ このセクションのプログラムは下記のようになります。実際に、コピペしてコラボで試してみましょう！ import pandas as pd import numpy as np url1 = "https://www.mhlw.go.jp/file/06-Seisakujouhou-12400000-Hokenkyoku/0000139842.xlsx" df = pd.read_excel(url1) df.head() url1 = "https://www.mhlw.go.jp/file/06-Seisakujouhou-12400000-Hokenkyoku/0000139842.xlsx" df1 = pd.read_excel(url1, skiprows=[0, 1, 3]) df1.head() df1_1 = df1.rename(columns={"薬効...

#32 NDBオープンデータとは

2月 15, 2024

初めに「 NDBオープンデータ」とは何かを説明します。今回分析の対象とする「薬剤」の「都道府県別薬効分類別数量」のURL一覧もGoogleIDを持っていて、共有許可をしていただければ、ダウンロードできますのでご活用ください。 ■ まずは、 PowerPoint（パワポ）の資料をお読みください！ #32 NDBオープンデータとは by @Cat_Taro ■ 次に、下記の動画（5分3秒）で復習しましょう。 ★参考資料 ■ 利用を検討している方々へのマニュアル　https://www.mhlw.go.jp/content/12400000/001162218.pdf ■ NDBオープンデータ分析サイト　https://www.mhlw.go.jp/ndb/opendatasite/index.html ■ NDBオープンデータ https://www.mhlw.go.jp/stf/seisakunitsuite/bunya/0000177182.html ■ 【分析で使う資料】「薬剤」→「都道府県別薬効分類別数量」→「内服」のURL https://docs.google.com/spreadsheets/d/12LcE067zroTxUihek7xO2qjrylyRQNVe/edit?usp=drive_link&ouid=106292536926943509337&rtpof=true&sd=true

#31 3rd STEP開始します！

2月 13, 2024

はじめまして！　タローの弟子の小次郎です。これから、タローに代わり、ガイド役をいたします。データサイエンスチュートリアルの基礎編（1st STEP、2nd STEP）は、いかがでしたか？この3rd STEP「応用編 Webスクレイピング」では、いままで身に付けたスキルを基にWEBにあるNDBオープンデータを使いやすく加工して、分析していきましょう。なぜ、医療データを選んだかって？それは、医療分野は使えるデータが豊富にあるからです。また、体系化されているマスターも完備されでいます。特殊なものと思われていますが、医学的知識は最小限で十分です。医療分野での活躍の機会も数多くありますから、みなさんも、チャレンジしてみてください。オープンデータは練習用の素材になるだけでなく、分析することによって社会貢献にも役立ちます。

このブログを検索

データサイエンスチュートリアル

投稿

Translate

#34 データの修正・保存

#33 URLからデータを読み込む

#32 NDBオープンデータとは

#31 3rd STEP開始します！