投稿

Section 13 どのような集計をして、グラフを描くのか?

イメージ
データサイエンス体験動画「データサイエンス チュートリアル 猫のタロー編」は、2nd STEPに進みます!今回は、 2nd STEP「集計とグラフ描画」 のオリエンテーションです。 2nd STEP「集計とグラフ描画」の最初は、通算第15回目、Section 13「どのような集計をして、グラフを描くのか?」です。 これから、1st STEPで作成した「id_pos4」、いわゆる「きれいなデータ」を用いて、データの見える化、および報告書・会議用資料などのレポーティング用の集計を行っていきます。 様々なグラフの描き方、集計表形式がありますが、ビッグデータが格納されている「 OLAP 」で用いられている標準的な分析法に沿って解説していきます。「OLAP」の解説は後程行います。これらは応用範囲が広いため、他のデータでも活用できます。 また、「 seaborn 」を用いて、インパクトのあるグラフを少ないコードで描いていきます。グラフによるデータの見える化で、より深い洞察が得られることと思います。 ■ 概要を理解したい方は、下記の 動画 (7分31秒) をご覧ください。 ■ PowerPoint (パワポ) でじっくりと理解したい方は、 下記のスライドを参照してください。 Section 13 どのような集計をして、グラフを描くのか? by @Cat_Taro ■ 参考資料は、下記のURLをクリック!株式会社アシストが運営している「WebFOCUS」からの引用です。 https://fobi.ashisuto.co.jp/tech/imasara/olap/

Section 12  データの保存

イメージ
データサイエンス体験動画「データサイエンス チュートリアル 猫のタロー編」の第14回目は、Section 12「データの保存」です。 1st STEP「ビッグデータの読み込みとデータの確認」の最終回です! せっかくデータ型を変更したり、欠損値を削除してきれいなデータになったので、Googleドライブに保存しておきましょう。これは、「2nd STEP 集計とグラフ描画」で使います。 今回はExcelではなく、「 csv 」というビッグデータでよく用いられる形式で 保存 します。 解説するプログラムは、次の2つです。   ㉘ データ名.to_csv(‘保存するフォルダーのパス/新データ名.csv’) 「' '」を忘れないようにしてください! 「保存するフォルダーのパス」は、一番左に表示されているアイコン(フォルダー)をクリックして選択し、その後右クリックし、「 パスをコピー 」をクリックすればコピーできます。 復習したい方は、第4回 Section 2「ライブラリの選択とデータの読み込み」 → 「4.パスのコピー」(スライド7)を参照してください。 ■ 概要を理解したい方は、下記の 動画 (4分54秒)をご覧ください。 PC操作画面を確認できます! ■ PowerPoint(パワポ) でじっくりと理解したい方は、 下記のスライドを参照してください。 Section 12  データの保存 by @Cat_Taro

Section 11 groupbyを使ったデータのグループ化

イメージ
データサイエンス体験動画「データサイエンス チュートリアル 猫のタロー編」の第13回目は、Section 11「groupbyを使ったデータのグループ化」です。 特定の列の値ごとにグループを作成 する「 groupby() 」について解説します。 解説するプログラムは、次の2つです。   ㉖ データ名.groupby(“列名”).count()   ㉗ データ名.groupby(“列名1”)[“列名2”].max() 「groupby()」で作ったグループは、pandasの特殊なオブジェクトになっているので 中身を確認することができません 。しかし、関数と組み合わせることによって、グループごとの計算が一気にできます。 ここでは、 顧客ごとの購入期間を算出 する例を説明しています。よく使う例ですので、しっかりと身に付けていきましょう! ■ 概要を理解したい方は、下記の 動画 (6分16秒)をご覧ください。 PC操作画面を確認できます! ■ PowerPoint(パワポ) でじっくりと理解したい方は、 下記のスライドを参照してください。 Section 11 groupbyを使ったデータのグループ化 by @Cat_Taro

Section 10 queryを使った複数条件での抽出

イメージ
データサイエンス体験動画「データサイエンス チュートリアル 猫のタロー編」の第12回目は、 Section 10「 queryを使った複数条件での抽出 」です。 #8 「列の参照」では、列名を指定して、比較演算子を書くことによって、その列の条件に当てはまる行のみを参照する方法を解説しましたが、今回は、複数条件の組み合わせが、簡潔に記述できる「query」について解説します。 解説するプログラムは、次の4つです。  ㉒ データ名.query(“数字1 <= 列名 <= 数字2”)  ㉓ データ名.query(“列名 ! == 列名”)  ㉔ データ名.query(“列名 == 列名”)  ㉕ データ名.query(“論理演算1" and "論理演算2") 「query」は、 複数の比較演算子を用いる場合 や「and」、「or」、「not」等の 論理演算子 を使う場合にも対応していますので、とっても便利なものです。 また、結果の確認のために、「len()」、「describe()」も使います。復習してみてください! ■ 概要を理解したい方は、下記の 動画 (8分44秒)をご覧ください。 PC操作画面を確認できます! ■ PowerPoint(パワポ) でじっくりと理解したい方は、 下記のスライドを参照してください。 Section 10 queryを使った複数条件での抽出 by @Cat_Taro

カスタマーサクセスとデータ分析について

みなさん、お正月休み、どのように過ごしていますか? 猫のタローは、チュートリアルの動画作成をちょっとお休みして、TVや Prime Videoの合間に、溜まってしまった Chrome「リーディングリスト」を読んでいます。 その中で、ちょっと古いですが、ITmedia マーケティングの「 カスタマーサクセスはマーケティングや営業をどう変えるのか Gainsight日本法人代表に聞く 」がありました。 ポイントは、下記の点です。 ********** これまで、カスタマーサクセス部門は 解約防止 のための専門組織という印象があった。つまり、いかにして顧客を辞めさせないかに重点をおいていたのである。 だが、解約を希望する顧客に対して、あの手この手で何とか顧客をつなぎ止めるだけでは「顧客の成功」とは正反対の活動だと言わざるを得ない。 もともとやめたかったサービスを 渋々継続してもらっても 、それで顧客が成果を出せなければ ますます離脱意向は強まる 。 結果、企業側も売り上げを落とすことになる。これは買う側にとっても売る側にとっても 不幸な結末 だ。 ********** 確かに、前世では、顧客の求めに応じて、 チャーンレート (churn rate/解約率)の推移等を算出していたのですが、それって、ビジネスにとって、あまり効果が無かったのですね。 データ分析をする場合は、ビジネス上の目的に沿うことが大切だという原点を思い出させてくれる文章でした。 ビジネスの目的を理解するために、どのようなビジネスで、どのようにデータサイエンスが使われているかを知ることが大切だと思いますので、今年は、このあたりの解説も増やしていきたいと思います。 あと2回ほどで、1st STEP「ビッグデータの読み込みとデータの確認」も終了する予定ですので、 2nd STEP「集計とグラフ描画」との間に、いくつかのエピソードを入れて行こうと思っています。応援、お願いします!

リスキリングの意味

イメージ
 「NPO法人しごとのみらい」の竹内さんの記事「 リスキリング?本当に大切なのって、そこでしたっけ? 」を読みました。 以下、主な個所を抜粋します。 ●企業の中でリスキリングというなら、社員が学んだスキルを存分に生かせるように、 組織文化も変えていく必要 があるのでしょう。 ●本当の意味で学んだスキルを仕事に生かすためには、「 仕事で生かす努力 」も必要ではないかと思います。 ●実績とか、人柄とか、頼まれたら逃げずにやり切るところとか、スキルと同時に、 スキル以外のところも高めていく必要 があるんじゃないかな、と思います。 猫のタローは、この記事に大いに 賛同 します。 このブログは、データサイエンティストが身に付けるべき最小限のPythonプログラムを解説していますが、それは、プログラミング・スキルを身に付けることが最終目的ではありません。 プログラミングを体験することによって「 データ思考 」を身に付け、 ビジネス力を向上させ 、 キャリアアップ して 様々な体験 をしていくことで、自分の 人生を充実 させることの手助けができればと考えて執筆しています。更新が滞ることもありますが、「1st STEP ビッグデータの読み込みとデータの確認」、「2nd STEP 集計とグラフ描画」を完成させたいと思いますので、これからもよろしくお願いします。 動画や資料を作ることで、猫のタロー自身も日々成長を感じています!

Section 9 欠損値の見つけ方・削除方法

イメージ
データサイエンス体験動画「データサイエンス チュートリアル 猫のタロー編」の第11回目は、 Section 9「 欠損値の見つけ方・削除方法 」です。 データには、カラムに何も要素の無い「 欠損値 」が存在することがあります。欠損値があると、機械学習のプログラムがエラーになってしまうものがあるため、欠損値を見つけ、欠損値を含む行、列を除去する必要があります。  解説するプログラムは、次の4つです。  ⑰ データ名.sort_values(“列名”,ascending=False):前出  ⑲ データ名.iloc[行番号 :  ]  ⑳ データ名.isna().sum()  ㉑ データ名.dropna() ■ 概要を理解したい方は、下記の 動画 (11分12秒)をご覧ください。 PC操作画面を確認できます! ■ PowerPoint(パワポ) でじっくりと理解したい方は、 下記のスライドを参照してください。 Section 9 欠損値の見つけ方・削除方法 by @Cat_Taro