投稿

Section 27 ピボットテーブル(1)

イメージ
データを可視化する方法は、グラフだけではありません。 2つのカテゴリのデータを同時に集計した結果を示す表を クロス集計表 と言いますが、このクロス集計表によって、様々な考察を得ることができます。 このセクションでは、クロス集計表を作成する ピボットテーブル を解説します。 75  pd.pivot_table(データ名, index=“列名1”, columns=“列名2”,             , values=“列名3”, aggfunc=’関数’, 他の引数) 75 のプログラムの引数を何度か他の列名と書き換えたり、省略したりして、ピボットテーブルによるクロス集計表の作り方を身に付けていきましょう。 ■ まずは、概要を理解したい方は、下記の 動画 (10分32秒)をご覧ください。 ■ PowerPoint(パワポ) でじっくりと理解したい方は、下記のスライドを参照してください。 Section 27 ピボットテーブル(1) by @Cat_Taro ■ 参考URL ●株式会社Spotの「 Pandasでピボットテーブルを手軽に作成するpivot_table関数の使い方 」 https://deepage.net/features/pandas-pivot.html

Section 26 円グラフ

イメージ
このセクションでは、 円グラフ の描き方を解説します。 seaborn は、より美しく、より簡単にグラフ描画を実現してくれるライブラリですが、現時点では 円グラフを描く機能はありません 。しかし、日本ではプレゼン等で、市場シェアを円グラフで見せる機会が多いため、ここでは、「 Plotly 」というライブラリーを使います。 それらを実現するプログラムは下記の2つです。 73  import plotly.express as px 74  px.pie(データ名, values=“分類したい列名”, names=“値の列名”) ライブラリー「 Plotly 」は、円グラフを描くことができるだけでなく、 インタラクティブなグラフ を描けることが最大の特徴です。動画の後半で、そのインタラクティブ性を確認してみてください。 また、「 Dash 」 を使うと「Plotly」で可視化した インタラクティブなプロットをWeb上で操作 することができます。コラボを使わなくても、ホームページで「Plotly」を使うことができるというわけです。この解説は下記のURLを参照してください(英語ですが、頑張ってみてください)。 ■ まずは、概要を理解したい方は、下記の 動画 (8分9秒)をご覧ください。 ■ PowerPoint(パワポ) でじっくりと理解したい方は、下記のスライドを参照してください。 Section 26 円グラフ by @Cat_Taro ■ 参考URL ●様々な円グラフの描き方   【plotlyチュートリアル】 第4回円グラフ     https://cafe-mickey.com/python/plotly-tutorial-4/ ●「Plotly」全体の公式ドキュメント   Plotly Open Source Graphing Library for Python    https://plotly.com/python/

Section 25 散布図

イメージ
このセクションでは、x軸、y軸の値のペアで1つの実数が決る2変数の 散布図 の描き方を習得していきます。 ヒストグラムは、単変数のデータの分布を見るために用いましたが、散布図は2つの変数の分布を見るために用います。その分布をみることによって、 相関の有無 を点の散らばりから確認することができます。また、大きく異なったデータ( 外れ値 ) の存在 を確認することもできます。 それらを実現するプログラムは下記の3つです。 70   sns.scatterplot(data=データ名, x="列名1", y="列名2") 71  sns.scatterplot(data=データ名, x="列名1", y="列名2“, hie=“列名3”) 72  plt.legend(loc=‘位置’) 散布図を描くための「 scatterplot 」は、「lineplot」、「histplot」、「catplot」、「countplot」と同様に、「 hue 」を使ってサブグループに分け、それらを色分けすることができます。  また、グラフの 凡例の位置 を指定するには、「plt.legend(loc=‘位置’)」を使います。これは、他のグラフ描画のプログラムでも使えます。  ■ まずは、概要を理解したい方は、下記の 動画 (6分57秒)をご覧ください。 ■ PowerPoint(パワポ) でじっくりと理解したい方は、下記のスライドを参照してください。 Section 25 散布図 by @Cat_Taro ■ 凡例をグラフ外に表示したり、フォントの変更等を詳しく知りたい場合は、「Pythonアカデミー」の下記のページを参考にしてください。 【matplotlib】凡例(legend)を表示する方法【位置変更、フォント変更、サイズ変更】  https://python-academia.com/matplotlib-legend/  

医療ビッグデータ企業の過去・現在・未来 

イメージ
昨日 ポストした 医療ビッグデータ企業M&Aの記事の熱量が後を引いています…。チュートリアルの完成を急がなくてはならないのですが、 日本で企業が活用できる医療ビッグデータは、日本薬剤疫学会の健康・医療情報データベース活用委員会が毎年更新している「 日本で薬剤疫学研究に利用可能なデータベース 」で知ることができます。 なお、「日本で薬剤疫学研究に利用可能なデータベース」の分類は、下記の3つに分かれていますが、これは、データ収集元で分類しています。 例えば、「保険者ベース」は健康保険組合から、「医療機関ベース」は医療機関、「保険薬局ベース」は調剤薬局からデータの提供を受けています。 さて、最新のもので、昨日ポストした JMDC、メディカル・データ・ビジョン等の 医療ビッグデータ企業のデータベースを見てみましょう。 1.保険者ベース 総登録者数では JMDC が1位で、1,400万人。しかも、データ期間が2005年からと断トツで長期で、8年以上追跡可能な患者数が135万人と明記されていることから、データの質が良いことが推察されます。 2.医療機関ベース  総登録者数では、 MDV が1位で、4,042万人。JMDCは4位で1,700万人ですが、2,440万人の2位のリアルワールドデータ株式会社は2022年7月にJMDCの子会社になったので、単純に合計すると JMDCグループ が1位になります。 3.保険薬局ベース 総登録者数では、1位が外資の製薬企業サポート企業 IQVIA で、9,078万人。JMDCは4位で1,700万人と大分水をあけられているようです。 これは、医療ビッグデータ(「リアルワールドデータ/RWD」とも言います)の登場が、先ずは、保険者ベースのデータでJMDC、次いで保険薬局ベースのデータでJMIRI(現インテージグループ)、IMS(現IQVIA)、なかなかデータが集まらなくて普及に時間がかかりましたが、病院のDPCデータで メディカル・データ・ビジョンが登場したという歴史的背景が、未だに影響していると思います。下図を参照してください。 データビジネス は、収集に時間やコストがかかるため、 参入する企業が限られます 。また、一度参入した企業は、初期投資を回収するために自分の強みを活かさなくてはならないので、顧客(この場合は製薬企業)に ベンダーロ

医療ビッグデータ 第2章はじまる

イメージ
異常な暑さに見舞われている今年の夏。 医療ビッグデータ企業にも熱い動きが続出しています。 猫のタローが育った医療ビッグデータの業界、思い入れ深く、つぶやきます。 ************ ************ ◆8月25日  SBIホールディングス が メディカル・データ・ビジョン (MDV)株を追加取得(議決権ベースで最大5.35%追加取得)と発表。 SBIホールディングスとMDVは 2020年11月10日 に資本業務提携契約を締結。2023年6月3日現在、MDVの株式を940万8814株(議決権比率 24.63%)保有していた。 https://www.mixonline.jp/tabid55.html?artid=75242 ************ ************ ◆9月6日  NTTドコモ が、 インテージホールディングス の連結子会社化を目的とした株式公開買付け(TOB)を実施すると発表。 2012年4月 には両社の合弁会社として株式会社ドコモ・インサイトマーケティング(以下「DIM」といいます。)を設立していた。 https://www.nihon-ma.co.jp/news/20230906_9432-20/ ************ ************ ◆9月8日  オムロン 、医療データサービスの JMDC をTOBで子会社化(取得価格は最大で855億円)。JMDCはTOBに賛同し、同社の東証プライム市場への上場は維持される。 オムロンは 2022年2月 にJMDCと資本業務提携。これに伴い、オムロンは1120億円を投じてノーリツ鋼機からJMDCの株式33%(当時)を取得し、持ち分法適用関連会社としていた。 https://maonline.jp/news/20230908e ************ ************ これらのM&Aの目的は、明確で、いずれも新たなサービスを生み出すためのものです。そのため、いきなりのM&Aではなく、事前の準備がありました。 SBIホールディングス と メディカル・データ・ビジョン は、 医療ビッグデータを活用した金融およびヘルスケア分野での新商品・サービス開発などの加速。 NTTドコモ と インテージホールディングス は、 インテージHDが培ってきたデータ集計・分析・可視化などのスキ

Section 24 折れ線グラフ

イメージ
seabornで 折れ線グラフ を描くには、「 lineplot 」を使います。「barplot」と同様に、各グループごとの平均値を自動的に算出してくれますので、平均値を求めた集計表を作らなくとも、いきなりグラフを描くことができます。 それらを実現するプログラムは下記の3つです。 66  sns.lineplot(data=データ名, x=“列名1”, y=“列名2") 67  sns.lineplot(data=データ名, x=“列名1”, y=“列名2“, errorbar=None) 68  plt.xticks(rotation=角度)  69  sns.lineplot(data=データ名, x=“列名1”, y=“列名2“, hue=“列名3”) また、グラフ関数を使う時には、慣れるまで、グラフ関数に含まれている集計機能を確認するようにしましょう。ここでは、「groupby」を使います。 「 groupby 」は、複数の列ごとにグルーピングすることもできます。これを用いて、年月ごとの各国の「Total」の平均値を求め、「hue」を使ったグラフがそれをプロットしていることを確認しています。 groupby([“列名1”, “列名2”])[[“列名3”]].mean( ) ●列名1、列名2は、グルーピングする列名 ●列名3には、計算対象の列名 ■ まずは、概要を理解したい方は、下記の 動画 (8分39秒)をご覧ください。 ■ PowerPoint(パワポ) でじっくりと理解したい方は、下記のスライドを参照してください。 Section 24 折れ線グラフ by @Cat_Taro

Section 23 棒グラフ

イメージ
seabornで棒グラフを描くためには、 データの平均値のグラフ を描く「 barplot 」と データの個数のグラフ を描く「 countplot 」があります。 それらを実現するプログラムは下記の3つです。 【再掲】 ㊱ sns.barplot(data=データ名, x=“列名1”, y=“列名2”) 64 sns.barplot(data=データ名, x=“列名1”, y=“列名2”, 引数) 64’  横向きの棒グラフ        sns.barplot(data=データ名, x=“列名2”, y=“列名1”, 引数)  65 sns.countplot(data=データ名, x=“列名1”, y=“列名2”) 「barplot」は平均値のグラフですので、 信頼区間の幅 を表す エラーバー(error bar) を使い、平均値のばらつきを示す方法も身に付けていきましょう。 ■ 参考URL ●matplotlibの色指定の方法(再掲)   https://matplotlib.org/2.0.2/examples/color/named_colors.html ■ まずは、概要を理解したい方は、下記の 動画 (9分21秒)をご覧ください。 ■ PowerPoint(パワポ) でじっくりと理解したい方は、 下記のスライドを参照してください 。 Section 23 棒グラフ by @lou66jp