投稿

集計・データの見える化のプログラムリスト

イメージ
「データサイエンス チュートリアル」の動画付きチュートリアルの2nd STEPを終え、集計、データの見える化までは、なんとなくやり方がわかるようになってきたと思います。 今まで、出てきたプログラムをリストアップしました。 一通り、動画付きチュートリアルを終えた方は、索引代わりにお使いください。 ********** ■ 1st  STEP  #4 Section 2 ライブラリの選択とデータの読み込み ① import ライブラリ名 as ライブラリの略称 ② pd.read_excel('データのある場所/データ名.xlsx ') #5 Section 3 読み込んだデータの確認(1) ③ データ名 ④ データ名.head() ⑤ データ名.tail() #6 Section 4 読み込んだデータの確認(2) ⑥ len(データ名.index) ⑦ データ名[“列名""] ⑧ データ名[“列名""].unique() #7 Section 5 データ型 ⑨ データ名.dtypes ⑩ pd.read_excel(""データのある場所"", dtype = {“列名"": データ型}) #8 Section 6 列の参照 ⑪ データ名[“列名”] ⑫ データ名[[“列名”]] ⑬ データ名[データ名[“列名”] > 数字] #9 Section 7 数値の最大値の求め方 ⑭ データ名[“列名""].max(axis=0) ⑮ データ名.describe() ⑯ print(“列名"") ⑰ データ名.sort_values(“列名"",ascending=False) #10 Section 8 データ型の変更(キャスト) ⑱ データ名.astype({“列名”:データ型}) #11 Section 9 欠損値の見つけ方・削除方法 ⑲ データ名.iloc[行番号 :  ] ⑳ データ名.isna().sum() ㉑ データ名.dropna() #12 Section 10 queryを使った複数条件での抽出 ㉒ データ名.query(“数字1 <= 列名 <= 数

Section 28 ピボットテーブル(2)

イメージ
さて、「2nd STEP 集計とグラフ描画」は、最後の動画となります。 ここまで読んでいただき、ありがとうございました。 データサイエンティストが、どのようなプログラムを書いているのか、試行錯誤も含めて、伝わったかなぁと思います。プログラムを書くという作業の背景を理解して、ビジネスの現場で データ思考 を心がけていただくことを期待します。 また、このブログで、データサイエンスに興味を持ち、もっと高度なプログラムを書いてみたいと思った方もいることでしょう。ブログの参考図書を参考に、データサイエンスの大海原に漕ぎ出していきましょう。 本セクションでは、円グラフに現れている数値が本当に価格帯ごとの 比率 (%)になっているかどうかをピボットテーブル+αで確認していきます。 グラフで傾向をつかむだけでなく、その数値を把握することを求められるケースがしばしばありますので、ピボットテーブルで求めたクロス集計表にひと手間加えて、比率(%)がわかる表の作り方を身に付けましょう。「 pivot_table 」では、 欠損値を含めないで集計 しますので、欠損値を確認したり、データ型を変えたり、結構、手間がかかります。 また、一気に、比率を求めてしまう方法として、データフレームの各行に対して関数を適用する「 apply 」と1行で記載できる関数を定義する「 lambda 」を組み合わせることも身に付けていきましょう。 76 データ名[データ名.isna().any(axis=1)] 77  データ名.replace(“元の要素”, “新しい要素”) 78  データ名.apply(関数, axis=1) 79  lambda 引数:処理内容 まとめとして、データを「見える化」するための「 グラフ・集計表の目的別手法 」も掲載しました。復習の意味で、参考にしてください。 ■ まずは、概要を理解したい方は、下記の 動画 (15分31秒)をご覧ください。 ■ PowerPoint(パワポ) でじっくりと理解したい方は、下記のスライドを参照してください。 Section 28 ピボットテーブル(2) by @Cat_Taro

Section 27 ピボットテーブル(1)

イメージ
データを可視化する方法は、グラフだけではありません。 2つのカテゴリのデータを同時に集計した結果を示す表を クロス集計表 と言いますが、このクロス集計表によって、様々な考察を得ることができます。 このセクションでは、クロス集計表を作成する ピボットテーブル を解説します。 75  pd.pivot_table(データ名, index=“列名1”, columns=“列名2”,             , values=“列名3”, aggfunc=’関数’, 他の引数) 75 のプログラムの引数を何度か他の列名と書き換えたり、省略したりして、ピボットテーブルによるクロス集計表の作り方を身に付けていきましょう。 ■ まずは、概要を理解したい方は、下記の 動画 (10分32秒)をご覧ください。 ■ PowerPoint(パワポ) でじっくりと理解したい方は、下記のスライドを参照してください。 Section 27 ピボットテーブル(1) by @Cat_Taro ■ 参考URL ●株式会社Spotの「 Pandasでピボットテーブルを手軽に作成するpivot_table関数の使い方 」 https://deepage.net/features/pandas-pivot.html

Section 26 円グラフ

イメージ
このセクションでは、 円グラフ の描き方を解説します。 seaborn は、より美しく、より簡単にグラフ描画を実現してくれるライブラリですが、現時点では 円グラフを描く機能はありません 。しかし、日本ではプレゼン等で、市場シェアを円グラフで見せる機会が多いため、ここでは、「 Plotly 」というライブラリーを使います。 それらを実現するプログラムは下記の2つです。 73  import plotly.express as px 74  px.pie(データ名, values=“分類したい列名”, names=“値の列名”) ライブラリー「 Plotly 」は、円グラフを描くことができるだけでなく、 インタラクティブなグラフ を描けることが最大の特徴です。動画の後半で、そのインタラクティブ性を確認してみてください。 また、「 Dash 」 を使うと「Plotly」で可視化した インタラクティブなプロットをWeb上で操作 することができます。コラボを使わなくても、ホームページで「Plotly」を使うことができるというわけです。この解説は下記のURLを参照してください(英語ですが、頑張ってみてください)。 ■ まずは、概要を理解したい方は、下記の 動画 (8分9秒)をご覧ください。 ■ PowerPoint(パワポ) でじっくりと理解したい方は、下記のスライドを参照してください。 Section 26 円グラフ by @Cat_Taro ■ 参考URL ●様々な円グラフの描き方   【plotlyチュートリアル】 第4回円グラフ     https://cafe-mickey.com/python/plotly-tutorial-4/ ●「Plotly」全体の公式ドキュメント   Plotly Open Source Graphing Library for Python    https://plotly.com/python/

Section 25 散布図

イメージ
このセクションでは、x軸、y軸の値のペアで1つの実数が決る2変数の 散布図 の描き方を習得していきます。 ヒストグラムは、単変数のデータの分布を見るために用いましたが、散布図は2つの変数の分布を見るために用います。その分布をみることによって、 相関の有無 を点の散らばりから確認することができます。また、大きく異なったデータ( 外れ値 ) の存在 を確認することもできます。 それらを実現するプログラムは下記の3つです。 70   sns.scatterplot(data=データ名, x="列名1", y="列名2") 71  sns.scatterplot(data=データ名, x="列名1", y="列名2“, hie=“列名3”) 72  plt.legend(loc=‘位置’) 散布図を描くための「 scatterplot 」は、「lineplot」、「histplot」、「catplot」、「countplot」と同様に、「 hue 」を使ってサブグループに分け、それらを色分けすることができます。  また、グラフの 凡例の位置 を指定するには、「plt.legend(loc=‘位置’)」を使います。これは、他のグラフ描画のプログラムでも使えます。  ■ まずは、概要を理解したい方は、下記の 動画 (6分57秒)をご覧ください。 ■ PowerPoint(パワポ) でじっくりと理解したい方は、下記のスライドを参照してください。 Section 25 散布図 by @Cat_Taro ■ 凡例をグラフ外に表示したり、フォントの変更等を詳しく知りたい場合は、「Pythonアカデミー」の下記のページを参考にしてください。 【matplotlib】凡例(legend)を表示する方法【位置変更、フォント変更、サイズ変更】  https://python-academia.com/matplotlib-legend/  

医療ビッグデータ企業の過去・現在・未来 

イメージ
昨日 ポストした 医療ビッグデータ企業M&Aの記事の熱量が後を引いています…。チュートリアルの完成を急がなくてはならないのですが、 日本で企業が活用できる医療ビッグデータは、日本薬剤疫学会の健康・医療情報データベース活用委員会が毎年更新している「 日本で薬剤疫学研究に利用可能なデータベース 」で知ることができます。 なお、「日本で薬剤疫学研究に利用可能なデータベース」の分類は、下記の3つに分かれていますが、これは、データ収集元で分類しています。 例えば、「保険者ベース」は健康保険組合から、「医療機関ベース」は医療機関、「保険薬局ベース」は調剤薬局からデータの提供を受けています。 さて、最新のもので、昨日ポストした JMDC、メディカル・データ・ビジョン等の 医療ビッグデータ企業のデータベースを見てみましょう。 1.保険者ベース 総登録者数では JMDC が1位で、1,400万人。しかも、データ期間が2005年からと断トツで長期で、8年以上追跡可能な患者数が135万人と明記されていることから、データの質が良いことが推察されます。 2.医療機関ベース  総登録者数では、 MDV が1位で、4,042万人。JMDCは4位で1,700万人ですが、2,440万人の2位のリアルワールドデータ株式会社は2022年7月にJMDCの子会社になったので、単純に合計すると JMDCグループ が1位になります。 3.保険薬局ベース 総登録者数では、1位が外資の製薬企業サポート企業 IQVIA で、9,078万人。JMDCは4位で1,700万人と大分水をあけられているようです。 これは、医療ビッグデータ(「リアルワールドデータ/RWD」とも言います)の登場が、先ずは、保険者ベースのデータでJMDC、次いで保険薬局ベースのデータでJMIRI(現インテージグループ)、IMS(現IQVIA)、なかなかデータが集まらなくて普及に時間がかかりましたが、病院のDPCデータで メディカル・データ・ビジョンが登場したという歴史的背景が、未だに影響していると思います。下図を参照してください。 データビジネス は、収集に時間やコストがかかるため、 参入する企業が限られます 。また、一度参入した企業は、初期投資を回収するために自分の強みを活かさなくてはならないので、顧客(この場合は製薬企業)に ベンダーロ

医療ビッグデータ 第2章はじまる

イメージ
異常な暑さに見舞われている今年の夏。 医療ビッグデータ企業にも熱い動きが続出しています。 猫のタローが育った医療ビッグデータの業界、思い入れ深く、つぶやきます。 ************ ************ ◆8月25日  SBIホールディングス が メディカル・データ・ビジョン (MDV)株を追加取得(議決権ベースで最大5.35%追加取得)と発表。 SBIホールディングスとMDVは 2020年11月10日 に資本業務提携契約を締結。2023年6月3日現在、MDVの株式を940万8814株(議決権比率 24.63%)保有していた。 https://www.mixonline.jp/tabid55.html?artid=75242 ************ ************ ◆9月6日  NTTドコモ が、 インテージホールディングス の連結子会社化を目的とした株式公開買付け(TOB)を実施すると発表。 2012年4月 には両社の合弁会社として株式会社ドコモ・インサイトマーケティング(以下「DIM」といいます。)を設立していた。 https://www.nihon-ma.co.jp/news/20230906_9432-20/ ************ ************ ◆9月8日  オムロン 、医療データサービスの JMDC をTOBで子会社化(取得価格は最大で855億円)。JMDCはTOBに賛同し、同社の東証プライム市場への上場は維持される。 オムロンは 2022年2月 にJMDCと資本業務提携。これに伴い、オムロンは1120億円を投じてノーリツ鋼機からJMDCの株式33%(当時)を取得し、持ち分法適用関連会社としていた。 https://maonline.jp/news/20230908e ************ ************ これらのM&Aの目的は、明確で、いずれも新たなサービスを生み出すためのものです。そのため、いきなりのM&Aではなく、事前の準備がありました。 SBIホールディングス と メディカル・データ・ビジョン は、 医療ビッグデータを活用した金融およびヘルスケア分野での新商品・サービス開発などの加速。 NTTドコモ と インテージホールディングス は、 インテージHDが培ってきたデータ集計・分析・可視化などのスキ