データサイエンスチュートリアル

投稿

#27 Section ２５散布図

9月 15, 2023

このセクションでは、x軸、y軸の値のペアで1つの実数が決る2変数の散布図の描き方を習得していきます。ヒストグラムは、単変数のデータの分布を見るために用いましたが、散布図は2つの変数の分布を見るために用います。その分布をみることによって、相関の有無を点の散らばりから確認することができます。また、大きく異なったデータ（外れ値）の存在を確認することもできます。それらを実現するプログラムは下記の3つです。 70 　 sns.scatterplot(data=データ名, x="列名1", y="列名2") 71 　sns.scatterplot(data=データ名, x="列名1", y="列名2“, hie=“列名3”) 72 　plt.legend(loc=‘位置’) 散布図を描くための「 scatterplot 」は、「lineplot」、「histplot」、「catplot」、「countplot」と同様に、「 hue 」を使ってサブグループに分け、それらを色分けすることができます。また、グラフの凡例の位置を指定するには、「plt.legend(loc=‘位置’)」を使います。これは、他のグラフ描画のプログラムでも使えます。 ■ まずは、概要を理解したい方は、下記の動画（6分57秒）をご覧ください。 ■ PowerPoint（パワポ）でじっくりと理解したい方は、下記のスライドを参照してください。 Section ２５　散布図 by @Cat_Taro ■ 凡例をグラフ外に表示したり、フォントの変更等を詳しく知りたい場合は、「Pythonアカデミー」の下記のページを参考にしてください。【matplotlib】凡例(legend)を表示する方法【位置変更、フォント変更、サイズ変更】　https://python-academia.com/matplotlib-legend/　　

医療ビッグデータ企業の過去・現在・未来　

9月 12, 2023

昨日ポストした医療ビッグデータ企業M&Aの記事の熱量が後を引いています…。チュートリアルの完成を急がなくてはならないのですが、日本で企業が活用できる医療ビッグデータは、日本薬剤疫学会の健康・医療情報データベース活用委員会が毎年更新している「日本で薬剤疫学研究に利用可能なデータベース」で知ることができます。なお、「日本で薬剤疫学研究に利用可能なデータベース」の分類は、下記の3つに分かれていますが、これは、データ収集元で分類しています。例えば、「保険者ベース」は健康保険組合から、「医療機関ベース」は医療機関、「保険薬局ベース」は調剤薬局からデータの提供を受けています。さて、最新のもので、昨日ポストした JMDC、メディカル・データ・ビジョン等の医療ビッグデータ企業のデータベースを見てみましょう。１．保険者ベース総登録者数では JMDC が1位で、1,400万人。しかも、データ期間が2005年からと断トツで長期で、8年以上追跡可能な患者数が135万人と明記されていることから、データの質が良いことが推察されます。２．医療機関ベース　総登録者数では、 MDV が1位で、4,042万人。JMDCは4位で1,700万人ですが、2,440万人の2位のリアルワールドデータ株式会社は2022年7月にJMDCの子会社になったので、単純に合計すると JMDCグループが1位になります。３．保険薬局ベース総登録者数では、1位が外資の製薬企業サポート企業 IQVIA で、9,078万人。JMDCは4位で1,700万人と大分水をあけられているようです。これは、医療ビッグデータ（「リアルワールドデータ／RWD」とも言います）の登場が、先ずは、保険者ベースのデータでJMDC、次いで保険薬局ベースのデータでJMIRI（現インテージグループ）、IMS（現IQVIA）、なかなかデータが集まらなくて普及に時間がかかりましたが、病院のDPCデータでメディカル・データ・ビジョンが登場したという歴史的背景が、未だに影響していると思います。下図を参照してください。データビジネスは、収集に時間やコストがかかるため、参入する企業が限られます。また、一度参入した企業は、初期投資を回収するために自分の強みを活かさなくてはならないので、顧客（この場合は製薬企業）にベンダーロ...

医療ビッグデータ　第2章はじまる

9月 11, 2023

異常な暑さに見舞われている今年の夏。医療ビッグデータ企業にも熱い動きが続出しています。猫のタローが育った医療ビッグデータの業界、思い入れ深く、つぶやきます。 ************ ************ ◆8月25日　 SBIホールディングスがメディカル・データ・ビジョン（MDV）株を追加取得（議決権ベースで最大5.35％追加取得）と発表。 SBIホールディングスとMDVは 2020年11月10日に資本業務提携契約を締結。2023年6月3日現在、MDVの株式を940万8814株（議決権比率 24.63％）保有していた。 https://www.mixonline.jp/tabid55.html?artid=75242 ************ ************ ◆9月6日　 NTTドコモが、インテージホールディングスの連結子会社化を目的とした株式公開買付け（TOB）を実施すると発表。 2012年4月には両社の合弁会社として株式会社ドコモ・インサイトマーケティング（以下「DIM」といいます。）を設立していた。 https://www.nihon-ma.co.jp/news/20230906_9432-20/ ************ ************ ◆9月8日　オムロン、医療データサービスの JMDC をTOBで子会社化（取得価格は最大で855億円）。JMDCはTOBに賛同し、同社の東証プライム市場への上場は維持される。オムロンは 2022年2月にJMDCと資本業務提携。これに伴い、オムロンは1120億円を投じてノーリツ鋼機からJMDCの株式33％（当時）を取得し、持ち分法適用関連会社としていた。 https://maonline.jp/news/20230908e ************ ************ これらのM＆Aの目的は、明確で、いずれも新たなサービスを生み出すためのものです。そのため、いきなりのM＆Aではなく、事前の準備がありました。 SBIホールディングスとメディカル・データ・ビジョンは、医療ビッグデータを活用した金融およびヘルスケア分野での新商品・サービス開発などの加速。 NTTドコモとインテージホールディングスは、インテージHDが培ってきたデータ集計・分析・可視化などのスキ...

#26 Section ２４折れ線グラフ

9月 05, 2023

seabornで折れ線グラフを描くには、「 lineplot 」を使います。「barplot」と同様に、各グループごとの平均値を自動的に算出してくれますので、平均値を求めた集計表を作らなくとも、いきなりグラフを描くことができます。それらを実現するプログラムは下記の3つです。 66 　sns.lineplot(data=データ名, x=“列名1”, y=“列名2") 67 　sns.lineplot(data=データ名, x=“列名1”, y=“列名2“, errorbar=None) 68 　plt.xticks(rotation=角度)　 69 　sns.lineplot(data=データ名, x=“列名1”, y=“列名2“, hue=“列名3”) また、グラフ関数を使う時には、慣れるまで、グラフ関数に含まれている集計機能を確認するようにしましょう。ここでは、「groupby」を使います。「 groupby 」は、複数の列ごとにグルーピングすることもできます。これを用いて、年月ごとの各国の「Total」の平均値を求め、「hue」を使ったグラフがそれをプロットしていることを確認しています。 groupby([“列名1”, “列名2”])[[“列名3”]].mean( ) ●列名1、列名2は、グルーピングする列名 ●列名3には、計算対象の列名 ■ まずは、概要を理解したい方は、下記の動画（8分39秒）をご覧ください。 ■ PowerPoint（パワポ）でじっくりと理解したい方は、下記のスライドを参照してください。 Section ２４　折れ線グラフ by @Cat_Taro

# 25 Section ２３棒グラフ

8月 23, 2023

seabornで棒グラフを描くためには、データの平均値のグラフを描く「 barplot 」とデータの個数のグラフを描く「 countplot 」があります。それらを実現するプログラムは下記の3つです。【再掲】㊱ sns.barplot(data=データ名, x=“列名1”, y=“列名2”) 64　sns.barplot(data=データ名, x=“列名1”, y=“列名2”, 引数) 64’ 横向きの棒グラフ sns.barplot(data=データ名, x=“列名2”, y=“列名1”, 引数）　 65　sns.countplot(data=データ名, x=“列名1”, y=“列名2”）「barplot」は平均値のグラフですので、信頼区間の幅を表すエラーバー（error bar）を使い、平均値のばらつきを示す方法も身に付けていきましょう。 ■ 参考URL ●matplotlibの色指定の方法（再掲）　 https://matplotlib.org/2.0.2/examples/color/named_colors.html ■ まずは、概要を理解したい方は、下記の動画（9分21秒）をご覧ください。 ■ PowerPoint（パワポ）でじっくりと理解したい方は、下記のスライドを参照してください。 Section ２３　棒グラフ by @lou66jp

#24 Section ２２ヒストグラム（２）

8月 03, 2023

前のセクションで用いた histplot のバリエーション、そして displot 、 catplot を使った様々なヒストグラムの描き方を習得していきましょう。少し高度なグラフですが、カーネル密度推定によるグラフ（ヒストグラムの滑らかなバージョン）、経験的累積分布関数によるグラフ（ヒストグラム以外のデータの分布を表すグラフ）も描くことを取得していきましょう。それらを実現するプログラムは下記の６つです。 58 　sns.histplot(data=データ名, x=“列名1”, hue=”列名2“ , multiple='stack’)　 59 　sns.histplot(data=データ名, x=“列名1”, hue=”列名2“ , multiple='dodge’) 60 　sns.displot(data=データ名, x=“列名1”) 61 　sns.displot(data=データ名, x=“列名1”, kde=True) 62 　sns.displot(data=データ名, x=“列名1”, kind=‘ecdf’) 63 　sns.catplot(data=データ名, x=“列名", kind='count’) ヒストグラムは、様々なプログラムで描くことができます。これが、seabornの柔軟なところですが、逆にわかりにくいところでもあります。このチュートリアルでは、histplot、displot、catplot毎に解説するのではなく、グラフの種類ごとに解説していきます。各グラフ毎に、自分に合った一つのプログラムを選択して身に付けていけば十分です。 ■ まずは、概要を理解したい方は、下記の動画（14分19秒）をご覧ください。 ■ PowerPoint（パワポ）でじっくりと理解したい方は、下記のスライドを参照してください。 Section ２２　ヒストグラム（２） by @Cat_Taro ■ 参考URL ●二次元ヒストグラムのイメージ → HK29さんのブログ「PythonとVBAで世の中を便利にする」　 https://hk29.hatenablog.jp/entry/2021/08/21/230609 ●経験的累積分布関数（ECDF）のグ...

#23 Section ２１ヒストグラム（１）

6月 27, 2023

さて、本セクションでは、Section 20で作成した「id_pos11」を使って、ヒストグラムを描いていきます。ヒストグラムとは、対象のデータを区間ごとに区切った度数分布表を、棒グラフに似た図で表現したグラフのことです。データの分布を見るために用いられます。横軸(X軸)の数値を「階級」と呼び、データを区切った区間を表します。縦軸(Y軸)の数値は、「度数」と呼び、各区間に含まれるデータの数量を表します。それらを実現するプログラムは下記の６つです。 52　sns.histplot(data=データ名, x=“列名")　 53　sns.histplot(data=データ名1, x=“列名")　　　 sns.histplot(data=データ名2, x=“列名")　 54 color=‘色’ 55　plt.legend(labels=[“A", “B", “C"]) 56 alpha=数字 57　sns.histplot(data=データ名, x=“列名1”, hue=”列名2“)　　 ■ まずは、概要を理解したい方は、下記の動画（9分30秒）をご覧ください。 ■ PowerPoint （パワポ）でじっくりと理解したい方は、下記のスライドを参照してください。 Section ２１　ヒストグラム（１） by @Cat_Taro ■ 参考URL ●seabornでは、matplotlibの色指定の方法を使います。詳細は、下記を参照してください。 https://matplotlib.org/2.0.2/examples/color/named_colors.html

#22 Section ２０グラフ用のデータを作る

6月 21, 2023

本セクションはでは、ビンのラベルを元のデータに付与して作った「id_pos7_2」を、seabornでグラフを描いた際に、影響力のある3カ国を選んで、結果がわかりやすいように、データを作っていきます。１．「 groupby 」を用いて、国別にTotal（合計金額）を算出します。これは、㉖の応用ですね。２．カンマに続けて「 sort_values 」を使い、 Totalが大きい順に並べ替えます。これは、⑰の応用ですね。３．Section 10で解説した列の値に対する条件に応じて行を抽出する「query」を用いて、上位３カ国のデータのみを抽出します。データ名.query('列名 == ["要素名1", "要素名2"]') 「㉔データ名.query(“列名 == 列名”)」とは異なりますので、注意してください。 ■ まずは概要を理解したい！という方は、下記の動画（8分0秒）をご覧ください。 ■ PowerPoint でじっくり理解したい方は、右下のマーク「ページを新しいウインドウで開きます。」をクリックしてください。 Section ２０　グラフ用のデータを作る by @Cat_Taro

#21 Section １９ビンのラベルを元のデータに付与する

5月 11, 2023

Section 18では、データの変数を分割する「ビニング処理」を解説しましたが、このセクションでは、そのビン（分割区分）に付けたラベルを元データに付与する方法を解説します。元データに、新たなデータ項目を追加することにより、分析の幅が広がりますので、今回のスキルをしっかりとマスターしましょう。このプログラムは、機械学習用のデータを作成するときにもよく使うものです。それらを実現するプログラムは下記の２つです。㊾新データ名 = 元データ名.copy() ㊿新データ名[“新列名”] = pd.cut(元データ名[“列名”] 　　　　　　　　, [数字1, 数字2, 数字3] 　　　　　　　　, labels=[ラベル1, ラベル2, ラベル3] ) また、Pythonのプログラムを書く際に犯してしまうミスを警告してくれるコラボの機能「 SettingWithCopyWarning 」を体験し、それを防ぐ方法も身に付けていきましょう！ ■ まずは、概要を理解したい方は、下記の動画（8分45秒）をご覧ください。 ■ PowerPoint （パワポ）でじっくりと理解したい方は、下記のスライドを参照してください。 Section １９　ビンのラベルを元のデータに付与する by @Cat_Taro ■ 参考URL ブログ「naoの学習＆学習」の「【Pandas】データフレームをコピーしたいときにcopy()を使う意味」のURLは下記のとおりです。 https://www.learning-nao.com/?p=2384

#20 Section １８データを分割するビニング

4月 12, 2023

Section 17では、データに含まれていた時間の「ドリルダウン」、すなわち「年」から「年月」への「ドリルダウン」を行いましたが、このセクションでは、「ドリルダウン」するための数値を新たに作っていきます。「商品」に属する「UnitPrice（単価）」を、顧客の特徴をよく表すように分割（これを「ビニング」と言います）する方法を身に付けましょう。それらを実現するプログラムは下記の７つです。㊺ pd.cut( データ名[“列名”], 分割数, precision=□, right=True ) ㊻ pd.cut( データ名[“列名”], 分割数 ). value_counts() ㊼ pd.cut( データ名[“列名”], [数字1, 数字2, 数字3] ) ㊽ pd.cut( データ名[“列名”], [数字1, 数字2, 数字3] , labels=[ラベル1, ラベル2, ラベル3] ) ■ まずは、概要を理解したい方は、下記の動画（6分47秒）をご覧ください。 ■ PowerPo int （パワポ）でじっくりと理解したい方は、下記のスライドを参照してください。 Section １８　データを分割するビニング by @Cat_Taro ■ 参考URL ●ビニングに関しては、Smart-Hintが運営している「データをビニング（ビン分割）する方法｜cut」がとってもわかりやすかったので、参考にしてみてはいかがでしょうか。 https://smart-hint.com/python/cut/ ●フリーランスのサウンドクリエータ「パンダの中のパンダ」さんがやっている「【AIプログラミング】ビニングでボストン住宅価格の回帰」が役に立つと思いますので、下記を参考にしてみてくださいね。 https://panda-clip.com/binnning-boston/

#19 Section １７ seabornでグラフ描画（２）

4月 04, 2023

それでは、データサイエンス・チュートリアル　第19回目、Section 17「seabornでグラフ描画（２）」を始めます。このセクションでは、 OLAPキューブの分析手法に従い、時間に関してドリルダウンを行い、データ分析を試みていきます。また、それらの結果で説得力あるプレゼンをするために、 seaborn で作成したグラフを見栄えよくする方法を身に付けていきましょう。具体的には、seabornの日本語化、グラフの大きさを指定、軸の単位を整数にする、グラフをクールに表示する（ggplotライク）、グラフのタイトルを表示、 y軸の表示範囲を設定、グラフの画像を保存などを解説します。 Seabornの体裁を整えるプログラムを整理すると、下記のようになります。今回、解説するプログラムは下記の7つです。あまり、応用することは無いので、そのまま覚えるか、コピペできるようにしておきましょう。　㊳ !pip install japanize-matplotlib 　　 import japanize_matplotlib 　㊴ plt.figure(figsize=(○, △), dpi=□) 　㊵ plt.gca().ticklabel_format(style='plain’,axis='y’) 　㊶ plt.style.use("ggplot") 　㊷ plt.title(“グラフタイトル") 　㊸ plt.ylim(最小値,最大値) 　㊹ from google.colab import files 　 plt.savefig(“画像ファイル名.jpg") 　 files.download("画像ファイル名.jpg") ■ まずは、概要を理解したい方は、下記の動画（11分40秒）をご覧ください。 ■ PowerPoin t （パワポ）でじっくりと理解したい方は、右下のマーク「ページを新しいウインドウで開きます。」をクリックしてください。 Section １７　seabornでグラフ描画（２） by @Cat_Taro

#18 Section １６ seabornでグラフ描画（１）

3月 24, 2023

データサイエンス体験動画「データサイエンス　チュートリアル　猫のタロー編」、第18回目、Section 16「seabornでグラフ描画（１）」始めます！今回からは、時間のドリルダウンとライブラリ「 seaborn 」を使ったグラフの描画です。 seabornは、 x、y軸（場合によってはz軸も）が列でないとグラフを描いてくれません。groupbyなどを使って年や年月ごとに売上の合計を出すと、年や年月がインデックスになっていますので、列にして直す必要があることに注意して下さい。それらを実現するプログラムは下記の７つです。　㉖’ データ名.groupby(“列名”).sum() 　㉝ import matplotlib.pyplot as plt 　㉞ import seaborn as sns 　㉟ %matplotlib inline 　㊱ sns.barplot(data=データ名, x=“列名1”, y=“列名2”) 　㊲データ名.reset_index() 　㊳データ名.groupby(“列名”, as_index=False).sum() ■ 概要を理解したい方は、下記の動画（8分59秒）をご覧ください。 ■ PowerPoint （パワポ）でじっくりと理解したい方は、右下のマーク「ページを新しいウインドウで開きます。」をクリックしてください。 Section １６　seabornでグラフ描画（１） by @Cat_Taro ■ 参考URL seaborn公式ドキュメントのGallery https://seaborn.pydata.org/examples/index.html

#17 Section １５分析するための列の作成

3月 10, 2023

データサイエンス体験動画「データサイエンス　チュートリアル　猫のタロー編」、通算第17回目、Section15「分析するための列の作成」を始めます。今回は、 Section 13で解説したOLAPキューブの分析手法を実践していくために、その前段階であるデータ作成を行います。「Quantity」（数量）と「UnitPrice」（単価）の積から合計値の列を追加、データ型 datetimeから文字列で年、年月を取り出した列の追加を解説します。今回の動画は、それらを実現する下記のプログラムを解説します。　㉛データ名[“新列名”] = データ名[“列名1”] * データ名[“列名2”] 　㉜データ名[“新列名”] = データ名[“列名”].dt.strftime(“%Y%m”) また、復習になりますが、列の順序を変えるために、下記の⑫を使います。　⑫ データ名[[“列名”]] （「 Section ６列の参照」を参照） ■ 概要を理解したい方は、下記の動画（8分42秒）をご覧ください。 ■ PowerPoin t （パワポ）でじっくりと理解したい方は、下記のスライドを参照してください。 Section １５　分析するための列の作成 by @Cat_Taro

#16 Section １４ csvデータの読込

2月 25, 2023

データサイエンス体験動画「データサイエンス　チュートリアル　猫のタロー編」、通算第16回目、Section14「csvデータの読込」を始めます。今回は、 1st STEPで作成したcsvデータ「id_pos4」を読み込みます。その際、データ型を指定して読み込ます。また、余分な列を削除して、集計や分析の際に分かりやすいきれいなデータにしましょう。今回の動画は、それらを実現する下記のプログラムを解説します。　㉙ pd.read_csv(“データのある場所”, parse_dates=[“列名"] 　　　　, dtype ={"列名1": データ型 , "列名2": データ型}) 　㉚データ名.drop("列名", axis=1) axis=0 と axis=1 の違いもよく理解しておきましょう。 ■ 概要を理解したい方は、下記の動画（8分42秒）をご覧ください。 ■ PowerPoin t （パワポ）でじっくりと理解したい方は、下記のスライドを参照してください。 Section １４　csvデータの読込 by @Cat_Taro

#15 Section １３どのような集計をして、グラフを描くのか？

2月 18, 2023

データサイエンス体験動画「データサイエンス　チュートリアル　猫のタロー編」は、2nd STEPに進みます！今回は、 2nd STEP「集計とグラフ描画」のオリエンテーションです。 2nd STEP「集計とグラフ描画」の最初は、通算第15回目、Section 13「どのような集計をして、グラフを描くのか？」です。これから、1st STEPで作成した「id_pos4」、いわゆる「きれいなデータ」を用いて、データの見える化、および報告書・会議用資料などのレポーティング用の集計を行っていきます。様々なグラフの描き方、集計表形式がありますが、ビッグデータが格納されている「 OLAP 」で用いられている標準的な分析法に沿って解説していきます。「OLAP」の解説は後程行います。これらは応用範囲が広いため、他のデータでも活用できます。また、「 seaborn 」を用いて、インパクトのあるグラフを少ないコードで描いていきます。グラフによるデータの見える化で、より深い洞察が得られることと思います。 ■ 概要を理解したい方は、下記の動画（7分31秒）をご覧ください。 ■ PowerPoint （パワポ）でじっくりと理解したい方は、下記のスライドを参照してください。 Section １３　どのような集計をして、グラフを描くのか？ by @Cat_Taro ■ 参考資料は、下記のURLをクリック！株式会社アシストが運営している「WebFOCUS」からの引用です。 https://fobi.ashisuto.co.jp/tech/imasara/olap/

このブログを検索