投稿

ラベル(チュートリアル(動画付))が付いた投稿を表示しています

#37 Interactive Table

イメージ
まずは、前回、縦型(long型)に変換したデータをよく見てみましょう。列名「個数」末尾の方に、「-」(ハイフン)が存在します。 これは、データが存在しないことを表しますが、Pythonはその意味を理解しません。欠損値「NaN」と変換しておきましょう。#30「Section 28 ピボットテーブル(2)」に出てきた77を思い出してください。 ● データを縦型に変換する    77  データ名.replace(“元の要素”, “新しい要素”) また、「“新しい要素”」を 欠損値 に置換する場合は、「 np.nan 」と記載します。この場合、「” ”」は、要りません。 さて、コラボには、pandasデータフレームをインタラクティブなディスプレイに変換する拡張機能「 Interactive Table 」があります。このディスプレイは、フィルタリング、並べ替え、探索などを行うことができます。 データを保存する前に、「Interactive Table」を体験していきましょう。 最後はデータを保存します。 ● データを保存する    ㉘ データ名.to_csv(‘保存するフォルダーのパス/新データ名.csv’) ************ ■ まずは、下記の 動画 (5分5秒)をご覧ください。 ■ 次にプログラムの 解説 を自分のペースで読み、コラボでプログラムを書いてみましょう。 下記のスライドを参照してください。 #37 Interactive Table by @Cat_Taro ************ ■ このセクションのプログラムは下記のようになります。    実際に、コピペして コラボ で試してみましょう! df_all4.replace("-", np.nan, inplace=True) df_all4 df_all4.query('医薬品名 == ["タケキャブ錠20mg"]') df_all4.to_csv('/content/drive/MyDrive/Colab Notebooks/医療/naihuku.csv')

#36 縦型(long型)に変換

イメージ
前回結合したデータを「 melt 」使って、データを変数が一列にまとめられている縦型にしていきます。これにより、集計がしやすくなります。 Excelデータは人間が見やすいように横型(wide型)になっていることが多いのですが、 集計する際は、縦型(long型)にすることが必要 です。これは、変数が一列にまとめられているからです。 この縦変換には、「melt」を用います。 ● データを縦型に変換する     89 pandas.melt( データ名                                 , id_vars=固定される列名                                 , value_vars=meltする識別変数                                 , var_name=meltする識別変数の名前                                 , value_name=meltする識別変数の値の名前 ) ● 不要な列を削除する     90 データ名.drop(“列名”, axis=1) ************ ■ まずは、下記の 動画 (4分52秒)をご覧ください。 ■ 次にプログラムの 解説 を自分のペースで読み、コラボでプログラムを書いてみましょう。 下記のスライドを参照してください。 #36 縦型(long型)に変換 by @Cat_Taro ************ ★参考資料 ■ 【pandas】melt, pivot:縦横変換【データフレーム処理】 by shunさんの「データサイエンスの道標」 https://datasciencemore.com/python-pandas-melt-pivot/ ************ ■ このセクションのプログラムは下記のようになります。    実際に、コピペして コラボ で試してみましょう! df_all3 = df_all.drop(["Unnamed: 0", "単位"], axis=1) df_all3 df_all4 = pd.melt(df_all , id_vars=['薬効分類', 

Section 28 ピボットテーブル(2)

イメージ
さて、「2nd STEP 集計とグラフ描画」は、最後の動画となります。 ここまで読んでいただき、ありがとうございました。 データサイエンティストが、どのようなプログラムを書いているのか、試行錯誤も含めて、伝わったかなぁと思います。プログラムを書くという作業の背景を理解して、ビジネスの現場で データ思考 を心がけていただくことを期待します。 また、このブログで、データサイエンスに興味を持ち、もっと高度なプログラムを書いてみたいと思った方もいることでしょう。ブログの参考図書を参考に、データサイエンスの大海原に漕ぎ出していきましょう。 本セクションでは、円グラフに現れている数値が本当に価格帯ごとの 比率 (%)になっているかどうかをピボットテーブル+αで確認していきます。 グラフで傾向をつかむだけでなく、その数値を把握することを求められるケースがしばしばありますので、ピボットテーブルで求めたクロス集計表にひと手間加えて、比率(%)がわかる表の作り方を身に付けましょう。「 pivot_table 」では、 欠損値を含めないで集計 しますので、欠損値を確認したり、データ型を変えたり、結構、手間がかかります。 また、一気に、比率を求めてしまう方法として、データフレームの各行に対して関数を適用する「 apply 」と1行で記載できる関数を定義する「 lambda 」を組み合わせることも身に付けていきましょう。 76 データ名[データ名.isna().any(axis=1)] 77  データ名.replace(“元の要素”, “新しい要素”) 78  データ名.apply(関数, axis=1) 79  lambda 引数:処理内容 まとめとして、データを「見える化」するための「 グラフ・集計表の目的別手法 」も掲載しました。復習の意味で、参考にしてください。 ■ まずは、概要を理解したい方は、下記の 動画 (15分31秒)をご覧ください。 ■ PowerPoint(パワポ) でじっくりと理解したい方は、下記のスライドを参照してください。 Section 28 ピボットテーブル(2) by @Cat_Taro

Section 27 ピボットテーブル(1)

イメージ
データを可視化する方法は、グラフだけではありません。 2つのカテゴリのデータを同時に集計した結果を示す表を クロス集計表 と言いますが、このクロス集計表によって、様々な考察を得ることができます。 このセクションでは、クロス集計表を作成する ピボットテーブル を解説します。 75  pd.pivot_table(データ名, index=“列名1”, columns=“列名2”,             , values=“列名3”, aggfunc=’関数’, 他の引数) 75 のプログラムの引数を何度か他の列名と書き換えたり、省略したりして、ピボットテーブルによるクロス集計表の作り方を身に付けていきましょう。 ■ まずは、概要を理解したい方は、下記の 動画 (10分32秒)をご覧ください。 ■ PowerPoint(パワポ) でじっくりと理解したい方は、下記のスライドを参照してください。 Section 27 ピボットテーブル(1) by @Cat_Taro ■ 参考URL ●株式会社Spotの「 Pandasでピボットテーブルを手軽に作成するpivot_table関数の使い方 」 https://deepage.net/features/pandas-pivot.html

Section 26 円グラフ

イメージ
このセクションでは、 円グラフ の描き方を解説します。 seaborn は、より美しく、より簡単にグラフ描画を実現してくれるライブラリですが、現時点では 円グラフを描く機能はありません 。しかし、日本ではプレゼン等で、市場シェアを円グラフで見せる機会が多いため、ここでは、「 Plotly 」というライブラリーを使います。 それらを実現するプログラムは下記の2つです。 73  import plotly.express as px 74  px.pie(データ名, values=“分類したい列名”, names=“値の列名”) ライブラリー「 Plotly 」は、円グラフを描くことができるだけでなく、 インタラクティブなグラフ を描けることが最大の特徴です。動画の後半で、そのインタラクティブ性を確認してみてください。 また、「 Dash 」 を使うと「Plotly」で可視化した インタラクティブなプロットをWeb上で操作 することができます。コラボを使わなくても、ホームページで「Plotly」を使うことができるというわけです。この解説は下記のURLを参照してください(英語ですが、頑張ってみてください)。 ■ まずは、概要を理解したい方は、下記の 動画 (8分9秒)をご覧ください。 ■ PowerPoint(パワポ) でじっくりと理解したい方は、下記のスライドを参照してください。 Section 26 円グラフ by @Cat_Taro ■ 参考URL ●様々な円グラフの描き方   【plotlyチュートリアル】 第4回円グラフ     https://cafe-mickey.com/python/plotly-tutorial-4/ ●「Plotly」全体の公式ドキュメント   Plotly Open Source Graphing Library for Python    https://plotly.com/python/

Section 25 散布図

イメージ
このセクションでは、x軸、y軸の値のペアで1つの実数が決る2変数の 散布図 の描き方を習得していきます。 ヒストグラムは、単変数のデータの分布を見るために用いましたが、散布図は2つの変数の分布を見るために用います。その分布をみることによって、 相関の有無 を点の散らばりから確認することができます。また、大きく異なったデータ( 外れ値 ) の存在 を確認することもできます。 それらを実現するプログラムは下記の3つです。 70   sns.scatterplot(data=データ名, x="列名1", y="列名2") 71  sns.scatterplot(data=データ名, x="列名1", y="列名2“, hie=“列名3”) 72  plt.legend(loc=‘位置’) 散布図を描くための「 scatterplot 」は、「lineplot」、「histplot」、「catplot」、「countplot」と同様に、「 hue 」を使ってサブグループに分け、それらを色分けすることができます。  また、グラフの 凡例の位置 を指定するには、「plt.legend(loc=‘位置’)」を使います。これは、他のグラフ描画のプログラムでも使えます。  ■ まずは、概要を理解したい方は、下記の 動画 (6分57秒)をご覧ください。 ■ PowerPoint(パワポ) でじっくりと理解したい方は、下記のスライドを参照してください。 Section 25 散布図 by @Cat_Taro ■ 凡例をグラフ外に表示したり、フォントの変更等を詳しく知りたい場合は、「Pythonアカデミー」の下記のページを参考にしてください。 【matplotlib】凡例(legend)を表示する方法【位置変更、フォント変更、サイズ変更】  https://python-academia.com/matplotlib-legend/  

Section 24 折れ線グラフ

イメージ
seabornで 折れ線グラフ を描くには、「 lineplot 」を使います。「barplot」と同様に、各グループごとの平均値を自動的に算出してくれますので、平均値を求めた集計表を作らなくとも、いきなりグラフを描くことができます。 それらを実現するプログラムは下記の3つです。 66  sns.lineplot(data=データ名, x=“列名1”, y=“列名2") 67  sns.lineplot(data=データ名, x=“列名1”, y=“列名2“, errorbar=None) 68  plt.xticks(rotation=角度)  69  sns.lineplot(data=データ名, x=“列名1”, y=“列名2“, hue=“列名3”) また、グラフ関数を使う時には、慣れるまで、グラフ関数に含まれている集計機能を確認するようにしましょう。ここでは、「groupby」を使います。 「 groupby 」は、複数の列ごとにグルーピングすることもできます。これを用いて、年月ごとの各国の「Total」の平均値を求め、「hue」を使ったグラフがそれをプロットしていることを確認しています。 groupby([“列名1”, “列名2”])[[“列名3”]].mean( ) ●列名1、列名2は、グルーピングする列名 ●列名3には、計算対象の列名 ■ まずは、概要を理解したい方は、下記の 動画 (8分39秒)をご覧ください。 ■ PowerPoint(パワポ) でじっくりと理解したい方は、下記のスライドを参照してください。 Section 24 折れ線グラフ by @Cat_Taro

Section 23 棒グラフ

イメージ
seabornで棒グラフを描くためには、 データの平均値のグラフ を描く「 barplot 」と データの個数のグラフ を描く「 countplot 」があります。 それらを実現するプログラムは下記の3つです。 【再掲】 ㊱ sns.barplot(data=データ名, x=“列名1”, y=“列名2”) 64 sns.barplot(data=データ名, x=“列名1”, y=“列名2”, 引数) 64’  横向きの棒グラフ        sns.barplot(data=データ名, x=“列名2”, y=“列名1”, 引数)  65 sns.countplot(data=データ名, x=“列名1”, y=“列名2”) 「barplot」は平均値のグラフですので、 信頼区間の幅 を表す エラーバー(error bar) を使い、平均値のばらつきを示す方法も身に付けていきましょう。 ■ 参考URL ●matplotlibの色指定の方法(再掲)   https://matplotlib.org/2.0.2/examples/color/named_colors.html ■ まずは、概要を理解したい方は、下記の 動画 (9分21秒)をご覧ください。 ■ PowerPoint(パワポ) でじっくりと理解したい方は、 下記のスライドを参照してください 。 Section 23 棒グラフ by @lou66jp

Section 22 ヒストグラム(2)

イメージ
前のセクションで用いた histplot のバリエーション、そして displot 、 catplot を使った様々なヒストグラムの描き方を習得していきましょう。 少し高度なグラフですが、 カーネル密度推定 によるグラフ(ヒストグラムの滑らかなバージョン)、 経験的累積分布関数 によるグラフ(ヒストグラム以外のデータの分布を表すグラフ)も描くことを取得していきましょう。 それらを実現するプログラムは下記の6つです。 58  sns.histplot(data=データ名, x=“列名1”, hue=”列名2“  , multiple='stack’)  59  sns.histplot(data=データ名, x=“列名1”, hue=”列名2“  , multiple='dodge’) 60  sns.displot(data=データ名, x=“列名1”) 61  sns.displot(data=データ名, x=“列名1”, kde=True) 62  sns.displot(data=データ名, x=“列名1”, kind=‘ecdf’) 63  sns.catplot(data=データ名, x=“列名", kind='count’) ヒストグラムは、様々なプログラムで描くことができます。これが、seabornの柔軟なところですが、逆にわかりにくいところでもあります。 このチュートリアルでは、histplot、displot、catplot毎に解説するのではなく、グラフの種類ごとに解説していきます。各グラフ毎に、自分に合った一つのプログラムを選択して身に付けていけば十分です。 ■ まずは、概要を理解したい方は、下記の 動画 (14分19秒)をご覧ください。   ■ PowerPoint(パワポ) でじっくりと理解したい方は、下記のスライドを参照してください。 Section 22 ヒストグラム(2) by @Cat_Taro ■ 参考URL ●二次元ヒストグラムのイメージ  → HK29さんのブログ「PythonとVBAで世の中を便利にする」   https://hk29.hatenablog.jp/entry/2021/08/21/230609  ●経験的累積分布関数(ECDF)のグラフの見方 →

Section 21 ヒストグラム(1)

イメージ
さて、本セクションでは、Section 20で作成した「id_pos11」を使って、 ヒストグラム を描いていきます。 ヒストグラムとは、対象のデータを区間ごとに区切った 度数分布表 を、棒グラフに似た図で表現したグラフのことです。データの分布を見るために用いられます。 横軸(X軸)の数値を「 階級 」と呼び、データを区切った区間を表します。縦軸(Y軸)の数値は、「 度数 」と呼び、各区間に含まれるデータの数量を表します。 それらを実現するプログラムは下記の6つです。 52 sns.histplot(data=データ名, x=“列名")  53 sns.histplot(data=データ名1, x=“列名")     sns.histplot(data=データ名2, x=“列名")  54  color=‘色’ 55 plt.legend(labels=[“A", “B", “C"])  56  alpha=数字 57 sns.histplot(data=データ名, x=“列名1”, hue=”列名2“)   ■ まずは、 概要を理解したい方は、下記の 動画 (9分30秒) をご覧ください。   ■ PowerPoint (パワポ) でじっくりと理解したい方は、 下記のスライドを参照してください。 Section 21 ヒストグラム(1) by @Cat_Taro ■ 参考URL ●seabornでは、matplotlibの色指定の方法を使います。詳細は、下記を参照してください。       https://matplotlib.org/2.0.2/examples/color/named_colors.html

Section 20 グラフ用のデータを作る

イメージ
本セクションはでは、ビンのラベルを元のデータに付与して作った「id_pos7_2」を、seabornでグラフを描いた際に、影響力のある3カ国を選んで、結果がわかりやすいように、データを作っていきます。 1.「 groupby 」を用いて、国別にTotal(合計金額)を算出します。これは、㉖の応用ですね。 2.カンマに続けて「 sort_values 」を使い、 Totalが大きい順に並べ替えます。これは、⑰の応用ですね。 3.Section 10で解説した列の値に対する条件に応じて行を抽出する「query」を用いて、上位3カ国のデータのみを抽出します。         データ名.query('列名 == ["要素名1", "要素名2"]') 「㉔ データ名.query(“列名 == 列名”)」とは異なりますので、注意してください。 ■ まずは概要を理解したい!という方は、下記の 動画 (8分0秒) をご覧ください。    ■ PowerPoint でじっくり理解したい方は、右下のマーク「 ページを新しいウインドウで開きます。 」 をクリックしてください。 Section 20 グラフ用のデータを作る by @Cat_Taro

Section 19 ビンのラベルを元のデータに付与する

イメージ
Section 18では、データの変数を分割する「 ビニング処理 」を解説しましたが、このセクションでは、 そのビン(分割区分)に付けたラベルを元データに付与する方法を解説します。 元データに、新たなデータ項目を追加することにより、分析の幅が広がりますので、今回のスキルをしっかりとマスターしましょう。このプログラムは、 機械学習 用のデータを作成するときにもよく使うものです。 それらを実現するプログラムは下記の2つです。 ㊾ 新データ名 = 元データ名.copy() ㊿ 新データ名[“新列名”] = pd.cut(元データ名[“列名”]         , [数字1, 数字2, 数字3]          , labels=[ラベル1, ラベル2, ラベル3] ) また、Pythonのプログラムを書く際に犯してしまうミスを警告してくれるコラボの機能「 SettingWithCopyWarning 」を体験し、それを防ぐ方法も身に付けていきましょう!  ■ まずは、 概要を理解したい方は、下記の 動画 (8分45秒) をご覧ください。 ■ PowerPoint (パワポ) でじっくりと理解したい方は、下記のスライドを参照してください。 Section 19 ビンのラベルを元のデータに付与する by @Cat_Taro    ■ 参考URL ブログ「naoの学習&学習」の「【Pandas】 データフレームをコピーしたいときにcopy()を使う意味」のURLは下記のとおりです。 https://www.learning-nao.com/?p=2384

Section 18 データを分割するビニング

イメージ
Section 17では、データに含まれていた時間の「ドリルダウン」、すなわち「年」から「年月」への「ドリルダウン」を行いましたが、このセクションでは、「 ドリルダウン 」するための数値を新たに作っていきます。 「商品」に属する「UnitPrice(単価)」を、顧客の特徴をよく表すように分割(これを「 ビニング 」と言います)する方法を身に付けましょう。 それらを実現するプログラムは下記の7つです。 ㊺ pd.cut( データ名[“列名”], 分割数, precision=□, right=True ) ㊻ pd.cut( データ名[“列名”], 分割数 ). value_counts() ㊼ pd.cut( データ名[“列名”], [数字1, 数字2, 数字3] ) ㊽ pd.cut( データ名[“列名”], [数字1, 数字2, 数字3]      , labels=[ラベル1, ラベル2, ラベル3] ) ■ まずは、 概要を理解したい方は、下記の 動画 (6分47秒) をご覧ください。   ■ PowerPo int (パワポ) でじっくりと理解したい方は、下記のスライドを参照してください。 Section 18 データを分割するビニング by @Cat_Taro   ■ 参考URL ●ビニングに関しては、Smart-Hintが運営している「データをビニング(ビン分割)する方法|cut」がとってもわかりやすかったので、参考にしてみてはいかがでしょうか。 https://smart-hint.com/python/cut/ ●フリーランスのサウンドクリエータ「パンダの中のパンダ」さんがやっている「【AIプログラミング】 ビニングでボストン住宅価格の回帰」が役に立つと思いますので、下記を参考にしてみてくださいね。 https://panda-clip.com/binnning-boston/

Section 17 seabornでグラフ描画(2)

イメージ
それでは、データサイエンス・チュートリアル 第19回目、Section 17「seabornでグラフ描画(2)」を始めます。 このセクションでは、 OLAPキューブ の分析手法に従い、時間に関してドリルダウンを行い、データ分析を試みていきます。 また、それらの結果で説得力あるプレゼンをするために、 seaborn で作成したグラフを見栄えよくする方法を身に付けていきましょう。具体的には、seabornの日本語化、グラフの大きさを指定、軸の単位を整数にする、グラフをクールに表示する(ggplotライク)、グラフのタイトルを表示、 y軸の表示範囲を設定、グラフの画像を保存などを解説します。 Seabornの体裁を整えるプログラムを整理すると、下記のようになります。 今回、解説するプログラムは下記の7つです。あまり、応用することは無いので、そのまま覚えるか、コピペできるようにしておきましょう。   ㊳ !pip install japanize-matplotlib    import japanize_matplotlib  ㊴ plt.figure(figsize=(○, △), dpi=□)  ㊵ plt.gca().ticklabel_format(style='plain’,axis='y’)  ㊶ plt.style.use("ggplot")  ㊷ plt.title(“グラフタイトル")  ㊸ plt.ylim(最小値,最大値)  ㊹ from google.colab import files       plt.savefig(“画像ファイル名.jpg")       files.download("画像ファイル名.jpg") ■ まずは、 概要を理解したい方は、下記の 動画 (11分40秒) をご覧ください。 ■ PowerPoin t (パワポ) でじっくりと理解したい方は、右下のマーク「ページを新しいウインドウで開きます。」をクリックしてください。 Section 17 seabornでグラフ描画(2) by @Cat_Taro

Section 16 seabornでグラフ描画(1)

イメージ
データサイエンス体験動画「データサイエンス チュートリアル 猫のタロー編」、第18回目、Section 16「seabornでグラフ描画(1)」始めます! 今回からは、時間の ドリルダウン とライブラリ「 seaborn 」を使ったグラフの描画です。 seabornは、 x、y軸 (場合によってはz軸も) が列 でないとグラフを描いてくれません。groupbyなどを使って年や年月ごとに売上の合計を出すと、年や年月がインデックスになっていますので、列にして直す必要があることに注意して下さい。 それらを実現するプログラムは下記の7つです。   ㉖’ データ名.groupby(“列名”).sum()  ㉝ import matplotlib.pyplot as plt  ㉞ import seaborn as sns  ㉟ %matplotlib inline  ㊱ sns.barplot(data=データ名, x=“列名1”, y=“列名2”)  ㊲ データ名.reset_index()  ㊳ データ名.groupby(“列名”, as_index=False).sum() ■ 概要を理解したい方は、下記の 動画 (8分59秒) をご覧ください。 ■ PowerPoint (パワポ) でじっくりと理解したい方は、右下のマーク「ページを新しいウインドウで開きます。」をクリックしてください。 Section 16 seabornでグラフ描画(1) by @Cat_Taro ■ 参考URL seaborn公式ドキュメントのGallery https://seaborn.pydata.org/examples/index.html

Section 15 分析するための列の作成

イメージ
データサイエンス体験動画「データサイエンス チュートリアル 猫のタロー編」、通算第17回目、Section15「分析するための列の作成」を始めます。 今回は、 Section 13で解説したOLAPキューブの分析手法を実践していくために、その前段階であるデータ作成を行います。 「Quantity」(数量)と「UnitPrice」(単価)の積から 合計値の列を追加 、データ型 datetimeから文字列で年、年月を取り出した列の追加 を解説します。 今回の動画は、それらを実現する下記のプログラムを解説します。   ㉛ データ名[“新列名”] = データ名[“列名1”] * データ名[“列名2”]  ㉜ データ名[“新列名”] = データ名[“列名”].dt.strftime(“%Y%m”) また、復習になりますが、列の順序を変えるために、下記の⑫を使います。  ⑫ データ名[[“列名”]] (「 Section 6 列の参照 」を参照) ■ 概要を理解したい方は、下記の 動画 (8分42秒) をご覧ください。 ■ PowerPoin t (パワポ) でじっくりと理解したい方は、 下記のスライドを参照してください。    Section 15 分析するための列の作成 by @Cat_Taro

Section 14 csvデータの読込

イメージ
データサイエンス体験動画「データサイエンス チュートリアル 猫のタロー編」、 通算第16回目、Section14「csvデータの読込」を始めます。 今回は、 1st STEPで作成したcsvデータ「id_pos4」を読み込みます。 その際、 データ型を指定して読み込ます 。 また、余分な列を削除して、集計や分析の際に分かりやすいきれいなデータにしましょう。 今回の動画は、それらを実現する下記のプログラムを解説します。   ㉙ pd.read_csv(“データのある場所”, parse_dates=[“列名"]     , dtype ={"列名1": データ型 , "列名2": データ型})  ㉚ データ名.drop("列名", axis=1) axis=0 と axis=1 の違いもよく理解しておきましょう。 ■ 概要を理解したい方は、下記の 動画 (8分42秒) をご覧ください。 ■ PowerPoin t (パワポ) でじっくりと理解したい方は、 下記のスライドを参照してください。 Section 14 csvデータの読込 by @Cat_Taro

Section 13 どのような集計をして、グラフを描くのか?

イメージ
データサイエンス体験動画「データサイエンス チュートリアル 猫のタロー編」は、2nd STEPに進みます!今回は、 2nd STEP「集計とグラフ描画」 のオリエンテーションです。 2nd STEP「集計とグラフ描画」の最初は、通算第15回目、Section 13「どのような集計をして、グラフを描くのか?」です。 これから、1st STEPで作成した「id_pos4」、いわゆる「きれいなデータ」を用いて、データの見える化、および報告書・会議用資料などのレポーティング用の集計を行っていきます。 様々なグラフの描き方、集計表形式がありますが、ビッグデータが格納されている「 OLAP 」で用いられている標準的な分析法に沿って解説していきます。「OLAP」の解説は後程行います。これらは応用範囲が広いため、他のデータでも活用できます。 また、「 seaborn 」を用いて、インパクトのあるグラフを少ないコードで描いていきます。グラフによるデータの見える化で、より深い洞察が得られることと思います。 ■ 概要を理解したい方は、下記の 動画 (7分31秒) をご覧ください。 ■ PowerPoint (パワポ) でじっくりと理解したい方は、 下記のスライドを参照してください。 Section 13 どのような集計をして、グラフを描くのか? by @Cat_Taro ■ 参考資料は、下記のURLをクリック!株式会社アシストが運営している「WebFOCUS」からの引用です。 https://fobi.ashisuto.co.jp/tech/imasara/olap/

Section 12  データの保存

イメージ
データサイエンス体験動画「データサイエンス チュートリアル 猫のタロー編」の第14回目は、Section 12「データの保存」です。 1st STEP「ビッグデータの読み込みとデータの確認」の最終回です! せっかくデータ型を変更したり、欠損値を削除してきれいなデータになったので、Googleドライブに保存しておきましょう。これは、「2nd STEP 集計とグラフ描画」で使います。 今回はExcelではなく、「 csv 」というビッグデータでよく用いられる形式で 保存 します。 解説するプログラムは、次の2つです。   ㉘ データ名.to_csv(‘保存するフォルダーのパス/新データ名.csv’) 「' '」を忘れないようにしてください! 「保存するフォルダーのパス」は、一番左に表示されているアイコン(フォルダー)をクリックして選択し、その後右クリックし、「 パスをコピー 」をクリックすればコピーできます。 復習したい方は、第4回 Section 2「ライブラリの選択とデータの読み込み」 → 「4.パスのコピー」(スライド7)を参照してください。 ■ 概要を理解したい方は、下記の 動画 (4分54秒)をご覧ください。 PC操作画面を確認できます! ■ PowerPoint(パワポ) でじっくりと理解したい方は、 下記のスライドを参照してください。 Section 12  データの保存 by @Cat_Taro

Section 11 groupbyを使ったデータのグループ化

イメージ
データサイエンス体験動画「データサイエンス チュートリアル 猫のタロー編」の第13回目は、Section 11「groupbyを使ったデータのグループ化」です。 特定の列の値ごとにグループを作成 する「 groupby() 」について解説します。 解説するプログラムは、次の2つです。   ㉖ データ名.groupby(“列名”).count()   ㉗ データ名.groupby(“列名1”)[“列名2”].max() 「groupby()」で作ったグループは、pandasの特殊なオブジェクトになっているので 中身を確認することができません 。しかし、関数と組み合わせることによって、グループごとの計算が一気にできます。 ここでは、 顧客ごとの購入期間を算出 する例を説明しています。よく使う例ですので、しっかりと身に付けていきましょう! ■ 概要を理解したい方は、下記の 動画 (6分16秒)をご覧ください。 PC操作画面を確認できます! ■ PowerPoint(パワポ) でじっくりと理解したい方は、 下記のスライドを参照してください。 Section 11 groupbyを使ったデータのグループ化 by @Cat_Taro