投稿

Section 25 散布図

イメージ
このセクションでは、x軸、y軸の値のペアで1つの実数が決る2変数の 散布図 の描き方を習得していきます。 ヒストグラムは、単変数のデータの分布を見るために用いましたが、散布図は2つの変数の分布を見るために用います。その分布をみることによって、 相関の有無 を点の散らばりから確認することができます。また、大きく異なったデータ( 外れ値 ) の存在 を確認することもできます。 それらを実現するプログラムは下記の3つです。 70   sns.scatterplot(data=データ名, x="列名1", y="列名2") 71  sns.scatterplot(data=データ名, x="列名1", y="列名2“, hie=“列名3”) 72  plt.legend(loc=‘位置’) 散布図を描くための「 scatterplot 」は、「lineplot」、「histplot」、「catplot」、「countplot」と同様に、「 hue 」を使ってサブグループに分け、それらを色分けすることができます。  また、グラフの 凡例の位置 を指定するには、「plt.legend(loc=‘位置’)」を使います。これは、他のグラフ描画のプログラムでも使えます。  ■ まずは、概要を理解したい方は、下記の 動画 (6分57秒)をご覧ください。 ■ PowerPoint(パワポ) でじっくりと理解したい方は、下記のスライドを参照してください。 Section 25 散布図 by @Cat_Taro ■ 凡例をグラフ外に表示したり、フォントの変更等を詳しく知りたい場合は、「Pythonアカデミー」の下記のページを参考にしてください。 【matplotlib】凡例(legend)を表示する方法【位置変更、フォント変更、サイズ変更】  https://python-academia.com/matplotlib-legend/  

医療ビッグデータ企業の過去・現在・未来 

イメージ
昨日 ポストした 医療ビッグデータ企業M&Aの記事の熱量が後を引いています…。チュートリアルの完成を急がなくてはならないのですが、 日本で企業が活用できる医療ビッグデータは、日本薬剤疫学会の健康・医療情報データベース活用委員会が毎年更新している「 日本で薬剤疫学研究に利用可能なデータベース 」で知ることができます。 なお、「日本で薬剤疫学研究に利用可能なデータベース」の分類は、下記の3つに分かれていますが、これは、データ収集元で分類しています。 例えば、「保険者ベース」は健康保険組合から、「医療機関ベース」は医療機関、「保険薬局ベース」は調剤薬局からデータの提供を受けています。 さて、最新のもので、昨日ポストした JMDC、メディカル・データ・ビジョン等の 医療ビッグデータ企業のデータベースを見てみましょう。 1.保険者ベース 総登録者数では JMDC が1位で、1,400万人。しかも、データ期間が2005年からと断トツで長期で、8年以上追跡可能な患者数が135万人と明記されていることから、データの質が良いことが推察されます。 2.医療機関ベース  総登録者数では、 MDV が1位で、4,042万人。JMDCは4位で1,700万人ですが、2,440万人の2位のリアルワールドデータ株式会社は2022年7月にJMDCの子会社になったので、単純に合計すると JMDCグループ が1位になります。 3.保険薬局ベース 総登録者数では、1位が外資の製薬企業サポート企業 IQVIA で、9,078万人。JMDCは4位で1,700万人と大分水をあけられているようです。 これは、医療ビッグデータ(「リアルワールドデータ/RWD」とも言います)の登場が、先ずは、保険者ベースのデータでJMDC、次いで保険薬局ベースのデータでJMIRI(現インテージグループ)、IMS(現IQVIA)、なかなかデータが集まらなくて普及に時間がかかりましたが、病院のDPCデータで メディカル・データ・ビジョンが登場したという歴史的背景が、未だに影響していると思います。下図を参照してください。 データビジネス は、収集に時間やコストがかかるため、 参入する企業が限られます 。また、一度参入した企業は、初期投資を回収するために自分の強みを活かさなくてはならないので、顧客(この場合は製薬企業)に ベンダーロ

医療ビッグデータ 第2章はじまる

イメージ
異常な暑さに見舞われている今年の夏。 医療ビッグデータ企業にも熱い動きが続出しています。 猫のタローが育った医療ビッグデータの業界、思い入れ深く、つぶやきます。 ************ ************ ◆8月25日  SBIホールディングス が メディカル・データ・ビジョン (MDV)株を追加取得(議決権ベースで最大5.35%追加取得)と発表。 SBIホールディングスとMDVは 2020年11月10日 に資本業務提携契約を締結。2023年6月3日現在、MDVの株式を940万8814株(議決権比率 24.63%)保有していた。 https://www.mixonline.jp/tabid55.html?artid=75242 ************ ************ ◆9月6日  NTTドコモ が、 インテージホールディングス の連結子会社化を目的とした株式公開買付け(TOB)を実施すると発表。 2012年4月 には両社の合弁会社として株式会社ドコモ・インサイトマーケティング(以下「DIM」といいます。)を設立していた。 https://www.nihon-ma.co.jp/news/20230906_9432-20/ ************ ************ ◆9月8日  オムロン 、医療データサービスの JMDC をTOBで子会社化(取得価格は最大で855億円)。JMDCはTOBに賛同し、同社の東証プライム市場への上場は維持される。 オムロンは 2022年2月 にJMDCと資本業務提携。これに伴い、オムロンは1120億円を投じてノーリツ鋼機からJMDCの株式33%(当時)を取得し、持ち分法適用関連会社としていた。 https://maonline.jp/news/20230908e ************ ************ これらのM&Aの目的は、明確で、いずれも新たなサービスを生み出すためのものです。そのため、いきなりのM&Aではなく、事前の準備がありました。 SBIホールディングス と メディカル・データ・ビジョン は、 医療ビッグデータを活用した金融およびヘルスケア分野での新商品・サービス開発などの加速。 NTTドコモ と インテージホールディングス は、 インテージHDが培ってきたデータ集計・分析・可視化などのスキ

Section 24 折れ線グラフ

イメージ
seabornで 折れ線グラフ を描くには、「 lineplot 」を使います。「barplot」と同様に、各グループごとの平均値を自動的に算出してくれますので、平均値を求めた集計表を作らなくとも、いきなりグラフを描くことができます。 それらを実現するプログラムは下記の3つです。 66  sns.lineplot(data=データ名, x=“列名1”, y=“列名2") 67  sns.lineplot(data=データ名, x=“列名1”, y=“列名2“, errorbar=None) 68  plt.xticks(rotation=角度)  69  sns.lineplot(data=データ名, x=“列名1”, y=“列名2“, hue=“列名3”) また、グラフ関数を使う時には、慣れるまで、グラフ関数に含まれている集計機能を確認するようにしましょう。ここでは、「groupby」を使います。 「 groupby 」は、複数の列ごとにグルーピングすることもできます。これを用いて、年月ごとの各国の「Total」の平均値を求め、「hue」を使ったグラフがそれをプロットしていることを確認しています。 groupby([“列名1”, “列名2”])[[“列名3”]].mean( ) ●列名1、列名2は、グルーピングする列名 ●列名3には、計算対象の列名 ■ まずは、概要を理解したい方は、下記の 動画 (8分39秒)をご覧ください。 ■ PowerPoint(パワポ) でじっくりと理解したい方は、下記のスライドを参照してください。 Section 24 折れ線グラフ by @Cat_Taro

Section 23 棒グラフ

イメージ
seabornで棒グラフを描くためには、 データの平均値のグラフ を描く「 barplot 」と データの個数のグラフ を描く「 countplot 」があります。 それらを実現するプログラムは下記の3つです。 【再掲】 ㊱ sns.barplot(data=データ名, x=“列名1”, y=“列名2”) 64 sns.barplot(data=データ名, x=“列名1”, y=“列名2”, 引数) 64’  横向きの棒グラフ        sns.barplot(data=データ名, x=“列名2”, y=“列名1”, 引数)  65 sns.countplot(data=データ名, x=“列名1”, y=“列名2”) 「barplot」は平均値のグラフですので、 信頼区間の幅 を表す エラーバー(error bar) を使い、平均値のばらつきを示す方法も身に付けていきましょう。 ■ 参考URL ●matplotlibの色指定の方法(再掲)   https://matplotlib.org/2.0.2/examples/color/named_colors.html ■ まずは、概要を理解したい方は、下記の 動画 (9分21秒)をご覧ください。 ■ PowerPoint(パワポ) でじっくりと理解したい方は、 下記のスライドを参照してください 。 Section 23 棒グラフ by @lou66jp

Section 22 ヒストグラム(2)

イメージ
前のセクションで用いた histplot のバリエーション、そして displot 、 catplot を使った様々なヒストグラムの描き方を習得していきましょう。 少し高度なグラフですが、 カーネル密度推定 によるグラフ(ヒストグラムの滑らかなバージョン)、 経験的累積分布関数 によるグラフ(ヒストグラム以外のデータの分布を表すグラフ)も描くことを取得していきましょう。 それらを実現するプログラムは下記の6つです。 58  sns.histplot(data=データ名, x=“列名1”, hue=”列名2“  , multiple='stack’)  59  sns.histplot(data=データ名, x=“列名1”, hue=”列名2“  , multiple='dodge’) 60  sns.displot(data=データ名, x=“列名1”) 61  sns.displot(data=データ名, x=“列名1”, kde=True) 62  sns.displot(data=データ名, x=“列名1”, kind=‘ecdf’) 63  sns.catplot(data=データ名, x=“列名", kind='count’) ヒストグラムは、様々なプログラムで描くことができます。これが、seabornの柔軟なところですが、逆にわかりにくいところでもあります。 このチュートリアルでは、histplot、displot、catplot毎に解説するのではなく、グラフの種類ごとに解説していきます。各グラフ毎に、自分に合った一つのプログラムを選択して身に付けていけば十分です。 ■ まずは、概要を理解したい方は、下記の 動画 (14分19秒)をご覧ください。   ■ PowerPoint(パワポ) でじっくりと理解したい方は、下記のスライドを参照してください。 Section 22 ヒストグラム(2) by @Cat_Taro ■ 参考URL ●二次元ヒストグラムのイメージ  → HK29さんのブログ「PythonとVBAで世の中を便利にする」   https://hk29.hatenablog.jp/entry/2021/08/21/230609  ●経験的累積分布関数(ECDF)のグラフの見方 →

Section 21 ヒストグラム(1)

イメージ
さて、本セクションでは、Section 20で作成した「id_pos11」を使って、 ヒストグラム を描いていきます。 ヒストグラムとは、対象のデータを区間ごとに区切った 度数分布表 を、棒グラフに似た図で表現したグラフのことです。データの分布を見るために用いられます。 横軸(X軸)の数値を「 階級 」と呼び、データを区切った区間を表します。縦軸(Y軸)の数値は、「 度数 」と呼び、各区間に含まれるデータの数量を表します。 それらを実現するプログラムは下記の6つです。 52 sns.histplot(data=データ名, x=“列名")  53 sns.histplot(data=データ名1, x=“列名")     sns.histplot(data=データ名2, x=“列名")  54  color=‘色’ 55 plt.legend(labels=[“A", “B", “C"])  56  alpha=数字 57 sns.histplot(data=データ名, x=“列名1”, hue=”列名2“)   ■ まずは、 概要を理解したい方は、下記の 動画 (9分30秒) をご覧ください。   ■ PowerPoint (パワポ) でじっくりと理解したい方は、 下記のスライドを参照してください。 Section 21 ヒストグラム(1) by @Cat_Taro ■ 参考URL ●seabornでは、matplotlibの色指定の方法を使います。詳細は、下記を参照してください。       https://matplotlib.org/2.0.2/examples/color/named_colors.html