データサイエンスチュートリアル

投稿

Section ２４　折れ線グラフ

9月 05, 2023

seabornで折れ線グラフを描くには、「 lineplot 」を使います。「barplot」と同様に、各グループごとの平均値を自動的に算出してくれますので、平均値を求めた集計表を作らなくとも、いきなりグラフを描くことができます。それらを実現するプログラムは下記の3つです。 66 　sns.lineplot(data=データ名, x=“列名1”, y=“列名2") 67 　sns.lineplot(data=データ名, x=“列名1”, y=“列名2“, errorbar=None) 68 　plt.xticks(rotation=角度)　 69 　sns.lineplot(data=データ名, x=“列名1”, y=“列名2“, hue=“列名3”) また、グラフ関数を使う時には、慣れるまで、グラフ関数に含まれている集計機能を確認するようにしましょう。ここでは、「groupby」を使います。「 groupby 」は、複数の列ごとにグルーピングすることもできます。これを用いて、年月ごとの各国の「Total」の平均値を求め、「hue」を使ったグラフがそれをプロットしていることを確認しています。 groupby([“列名1”, “列名2”])[[“列名3”]].mean( ) ●列名1、列名2は、グルーピングする列名 ●列名3には、計算対象の列名 ■ まずは、概要を理解したい方は、下記の動画（8分39秒）をご覧ください。 ■ PowerPoint（パワポ）でじっくりと理解したい方は、下記のスライドを参照してください。 Section ２４　折れ線グラフ by @Cat_Taro

Section ２３　棒グラフ

8月 23, 2023

seabornで棒グラフを描くためには、データの平均値のグラフを描く「 barplot 」とデータの個数のグラフを描く「 countplot 」があります。それらを実現するプログラムは下記の3つです。【再掲】㊱ sns.barplot(data=データ名, x=“列名1”, y=“列名2”) 64　sns.barplot(data=データ名, x=“列名1”, y=“列名2”, 引数) 64’ 横向きの棒グラフ sns.barplot(data=データ名, x=“列名2”, y=“列名1”, 引数）　 65　sns.countplot(data=データ名, x=“列名1”, y=“列名2”）「barplot」は平均値のグラフですので、信頼区間の幅を表すエラーバー（error bar）を使い、平均値のばらつきを示す方法も身に付けていきましょう。 ■ 参考URL ●matplotlibの色指定の方法（再掲）　 https://matplotlib.org/2.0.2/examples/color/named_colors.html ■ まずは、概要を理解したい方は、下記の動画（9分21秒）をご覧ください。 ■ PowerPoint（パワポ）でじっくりと理解したい方は、下記のスライドを参照してください。 Section ２３　棒グラフ by @lou66jp

Section ２２　ヒストグラム（２）

8月 03, 2023

前のセクションで用いた histplot のバリエーション、そして displot 、 catplot を使った様々なヒストグラムの描き方を習得していきましょう。少し高度なグラフですが、カーネル密度推定によるグラフ（ヒストグラムの滑らかなバージョン）、経験的累積分布関数によるグラフ（ヒストグラム以外のデータの分布を表すグラフ）も描くことを取得していきましょう。それらを実現するプログラムは下記の６つです。 58 　sns.histplot(data=データ名, x=“列名1”, hue=”列名2“ , multiple='stack’)　 59 　sns.histplot(data=データ名, x=“列名1”, hue=”列名2“ , multiple='dodge’) 60 　sns.displot(data=データ名, x=“列名1”) 61 　sns.displot(data=データ名, x=“列名1”, kde=True) 62 　sns.displot(data=データ名, x=“列名1”, kind=‘ecdf’) 63 　sns.catplot(data=データ名, x=“列名", kind='count’) ヒストグラムは、様々なプログラムで描くことができます。これが、seabornの柔軟なところですが、逆にわかりにくいところでもあります。このチュートリアルでは、histplot、displot、catplot毎に解説するのではなく、グラフの種類ごとに解説していきます。各グラフ毎に、自分に合った一つのプログラムを選択して身に付けていけば十分です。 ■ まずは、概要を理解したい方は、下記の動画（14分19秒）をご覧ください。 ■ PowerPoint（パワポ）でじっくりと理解したい方は、下記のスライドを参照してください。 Section ２２　ヒストグラム（２） by @Cat_Taro ■ 参考URL ●二次元ヒストグラムのイメージ → HK29さんのブログ「PythonとVBAで世の中を便利にする」　 https://hk29.hatenablog.jp/entry/2021/08/21/230609 ●経験的累積分布関数（ECDF）のグラフの見方 →

Section ２１　ヒストグラム（１）

6月 27, 2023

さて、本セクションでは、Section 20で作成した「id_pos11」を使って、ヒストグラムを描いていきます。ヒストグラムとは、対象のデータを区間ごとに区切った度数分布表を、棒グラフに似た図で表現したグラフのことです。データの分布を見るために用いられます。横軸(X軸)の数値を「階級」と呼び、データを区切った区間を表します。縦軸(Y軸)の数値は、「度数」と呼び、各区間に含まれるデータの数量を表します。それらを実現するプログラムは下記の６つです。 52　sns.histplot(data=データ名, x=“列名")　 53　sns.histplot(data=データ名1, x=“列名")　　　 sns.histplot(data=データ名2, x=“列名")　 54 color=‘色’ 55　plt.legend(labels=[“A", “B", “C"]) 56 alpha=数字 57　sns.histplot(data=データ名, x=“列名1”, hue=”列名2“)　　 ■ まずは、概要を理解したい方は、下記の動画（9分30秒）をご覧ください。 ■ PowerPoint （パワポ）でじっくりと理解したい方は、下記のスライドを参照してください。 Section ２１　ヒストグラム（１） by @Cat_Taro ■ 参考URL ●seabornでは、matplotlibの色指定の方法を使います。詳細は、下記を参照してください。 https://matplotlib.org/2.0.2/examples/color/named_colors.html

Section ２０　グラフ用のデータを作る

6月 21, 2023

本セクションはでは、ビンのラベルを元のデータに付与して作った「id_pos7_2」を、seabornでグラフを描いた際に、影響力のある3カ国を選んで、結果がわかりやすいように、データを作っていきます。１．「 groupby 」を用いて、国別にTotal（合計金額）を算出します。これは、㉖の応用ですね。２．カンマに続けて「 sort_values 」を使い、 Totalが大きい順に並べ替えます。これは、⑰の応用ですね。３．Section 10で解説した列の値に対する条件に応じて行を抽出する「query」を用いて、上位３カ国のデータのみを抽出します。データ名.query('列名 == ["要素名1", "要素名2"]') 「㉔データ名.query(“列名 == 列名”)」とは異なりますので、注意してください。 ■ まずは概要を理解したい！という方は、下記の動画（8分0秒）をご覧ください。 ■ PowerPoint でじっくり理解したい方は、右下のマーク「ページを新しいウインドウで開きます。」をクリックしてください。 Section ２０　グラフ用のデータを作る by @Cat_Taro

Section １９　ビンのラベルを元のデータに付与する

5月 11, 2023

Section 18では、データの変数を分割する「ビニング処理」を解説しましたが、このセクションでは、そのビン（分割区分）に付けたラベルを元データに付与する方法を解説します。元データに、新たなデータ項目を追加することにより、分析の幅が広がりますので、今回のスキルをしっかりとマスターしましょう。このプログラムは、機械学習用のデータを作成するときにもよく使うものです。それらを実現するプログラムは下記の２つです。㊾新データ名 = 元データ名.copy() ㊿新データ名[“新列名”] = pd.cut(元データ名[“列名”] 　　　　　　　　, [数字1, 数字2, 数字3] 　　　　　　　　, labels=[ラベル1, ラベル2, ラベル3] ) また、Pythonのプログラムを書く際に犯してしまうミスを警告してくれるコラボの機能「 SettingWithCopyWarning 」を体験し、それを防ぐ方法も身に付けていきましょう！ ■ まずは、概要を理解したい方は、下記の動画（8分45秒）をご覧ください。 ■ PowerPoint （パワポ）でじっくりと理解したい方は、下記のスライドを参照してください。 Section １９　ビンのラベルを元のデータに付与する by @Cat_Taro ■ 参考URL ブログ「naoの学習＆学習」の「【Pandas】データフレームをコピーしたいときにcopy()を使う意味」のURLは下記のとおりです。 https://www.learning-nao.com/?p=2384

Section １８　データを分割するビニング

4月 12, 2023

Section 17では、データに含まれていた時間の「ドリルダウン」、すなわち「年」から「年月」への「ドリルダウン」を行いましたが、このセクションでは、「ドリルダウン」するための数値を新たに作っていきます。「商品」に属する「UnitPrice（単価）」を、顧客の特徴をよく表すように分割（これを「ビニング」と言います）する方法を身に付けましょう。それらを実現するプログラムは下記の７つです。㊺ pd.cut( データ名[“列名”], 分割数, precision=□, right=True ) ㊻ pd.cut( データ名[“列名”], 分割数 ). value_counts() ㊼ pd.cut( データ名[“列名”], [数字1, 数字2, 数字3] ) ㊽ pd.cut( データ名[“列名”], [数字1, 数字2, 数字3] , labels=[ラベル1, ラベル2, ラベル3] ) ■ まずは、概要を理解したい方は、下記の動画（6分47秒）をご覧ください。 ■ PowerPo int （パワポ）でじっくりと理解したい方は、下記のスライドを参照してください。 Section １８　データを分割するビニング by @Cat_Taro ■ 参考URL ●ビニングに関しては、Smart-Hintが運営している「データをビニング（ビン分割）する方法｜cut」がとってもわかりやすかったので、参考にしてみてはいかがでしょうか。 https://smart-hint.com/python/cut/ ●フリーランスのサウンドクリエータ「パンダの中のパンダ」さんがやっている「【AIプログラミング】ビニングでボストン住宅価格の回帰」が役に立つと思いますので、下記を参考にしてみてくださいね。 https://panda-clip.com/binnning-boston/

このブログを検索