投稿

Translate

#14 Section 12 データの保存

イメージ
データサイエンス体験動画「データサイエンス チュートリアル 猫のタロー編」の第14回目は、Section 12「データの保存」です。 1st STEP「ビッグデータの読み込みとデータの確認」の最終回です! せっかくデータ型を変更したり、欠損値を削除してきれいなデータになったので、Googleドライブに保存しておきましょう。これは、「2nd STEP 集計とグラフ描画」で使います。 今回はExcelではなく、「 csv 」というビッグデータでよく用いられる形式で 保存 します。 解説するプログラムは、次の2つです。   ㉘ データ名.to_csv(‘保存するフォルダーのパス/新データ名.csv’) 「' '」を忘れないようにしてください! 「保存するフォルダーのパス」は、一番左に表示されているアイコン(フォルダー)をクリックして選択し、その後右クリックし、「 パスをコピー 」をクリックすればコピーできます。 復習したい方は、第4回 Section 2「ライブラリの選択とデータの読み込み」 → 「4.パスのコピー」(スライド7)を参照してください。 ■ 概要を理解したい方は、下記の 動画 (4分54秒)をご覧ください。 PC操作画面を確認できます! ■ PowerPoint(パワポ) でじっくりと理解したい方は、 下記のスライドを参照してください。 Section 12  データの保存 by @Cat_Taro

#13 Section 11 データのグループ化

イメージ
データサイエンス体験動画「データサイエンス チュートリアル 猫のタロー編」の第13回目は、Section 11「groupbyを使ったデータのグループ化」です。 特定の列の値ごとにグループを作成 する「 groupby() 」について解説します。 解説するプログラムは、次の2つです。   ㉖ データ名.groupby(“列名”).count()   ㉗ データ名.groupby(“列名1”)[“列名2”].max() 「groupby()」で作ったグループは、pandasの特殊なオブジェクトになっているので 中身を確認することができません 。しかし、関数と組み合わせることによって、グループごとの計算が一気にできます。 ここでは、 顧客ごとの購入期間を算出 する例を説明しています。よく使う例ですので、しっかりと身に付けていきましょう! ■ 概要を理解したい方は、下記の 動画 (6分16秒)をご覧ください。 PC操作画面を確認できます! ■ PowerPoint(パワポ) でじっくりと理解したい方は、 下記のスライドを参照してください。 Section 11 groupbyを使ったデータのグループ化 by @Cat_Taro

#12 Section 10 queryを使った複数条件での抽出

イメージ
データサイエンス体験動画「データサイエンス チュートリアル 猫のタロー編」の第12回目は、 Section 10「 queryを使った複数条件での抽出 」です。 #8 「列の参照」では、列名を指定して、比較演算子を書くことによって、その列の条件に当てはまる行のみを参照する方法を解説しましたが、今回は、複数条件の組み合わせが、簡潔に記述できる「query」について解説します。 解説するプログラムは、次の4つです。  ㉒ データ名.query(“数字1 <= 列名 <= 数字2”)  ㉓ データ名.query(“列名 ! == 列名”)  ㉔ データ名.query(“列名 == 列名”)  ㉕ データ名.query(“論理演算1" and "論理演算2") 「query」は、 複数の比較演算子を用いる場合 や「and」、「or」、「not」等の 論理演算子 を使う場合にも対応していますので、とっても便利なものです。 また、結果の確認のために、「len()」、「describe()」も使います。復習してみてください! ■ 概要を理解したい方は、下記の 動画 (8分44秒)をご覧ください。 PC操作画面を確認できます! ■ PowerPoint(パワポ) でじっくりと理解したい方は、 下記のスライドを参照してください。 Section 10 queryを使った複数条件での抽出 by @Cat_Taro

カスタマーサクセスとデータ分析について

みなさん、お正月休み、どのように過ごしていますか? 猫のタローは、チュートリアルの動画作成をちょっとお休みして、TVや Prime Videoの合間に、溜まってしまった Chrome「リーディングリスト」を読んでいます。 その中で、ちょっと古いですが、ITmedia マーケティングの「 カスタマーサクセスはマーケティングや営業をどう変えるのか Gainsight日本法人代表に聞く 」がありました。 ポイントは、下記の点です。 ********** これまで、カスタマーサクセス部門は 解約防止 のための専門組織という印象があった。つまり、いかにして顧客を辞めさせないかに重点をおいていたのである。 だが、解約を希望する顧客に対して、あの手この手で何とか顧客をつなぎ止めるだけでは「顧客の成功」とは正反対の活動だと言わざるを得ない。 もともとやめたかったサービスを 渋々継続してもらっても 、それで顧客が成果を出せなければ ますます離脱意向は強まる 。 結果、企業側も売り上げを落とすことになる。これは買う側にとっても売る側にとっても 不幸な結末 だ。 ********** 確かに、前世では、顧客の求めに応じて、 チャーンレート (churn rate/解約率)の推移等を算出していたのですが、それって、ビジネスにとって、あまり効果が無かったのですね。 データ分析をする場合は、ビジネス上の目的に沿うことが大切だという原点を思い出させてくれる文章でした。 ビジネスの目的を理解するために、どのようなビジネスで、どのようにデータサイエンスが使われているかを知ることが大切だと思いますので、今年は、このあたりの解説も増やしていきたいと思います。 あと2回ほどで、1st STEP「ビッグデータの読み込みとデータの確認」も終了する予定ですので、 2nd STEP「集計とグラフ描画」との間に、いくつかのエピソードを入れて行こうと思っています。応援、お願いします!

リスキリングの意味

イメージ
 「NPO法人しごとのみらい」の竹内さんの記事「 リスキリング?本当に大切なのって、そこでしたっけ? 」を読みました。 以下、主な個所を抜粋します。 ●企業の中でリスキリングというなら、社員が学んだスキルを存分に生かせるように、 組織文化も変えていく必要 があるのでしょう。 ●本当の意味で学んだスキルを仕事に生かすためには、「 仕事で生かす努力 」も必要ではないかと思います。 ●実績とか、人柄とか、頼まれたら逃げずにやり切るところとか、スキルと同時に、 スキル以外のところも高めていく必要 があるんじゃないかな、と思います。 猫のタローは、この記事に大いに 賛同 します。 このブログは、データサイエンティストが身に付けるべき最小限のPythonプログラムを解説していますが、それは、プログラミング・スキルを身に付けることが最終目的ではありません。 プログラミングを体験することによって「 データ思考 」を身に付け、 ビジネス力を向上させ 、 キャリアアップ して 様々な体験 をしていくことで、自分の 人生を充実 させることの手助けができればと考えて執筆しています。更新が滞ることもありますが、「1st STEP ビッグデータの読み込みとデータの確認」、「2nd STEP 集計とグラフ描画」を完成させたいと思いますので、これからもよろしくお願いします。 動画や資料を作ることで、猫のタロー自身も日々成長を感じています!

#11 Section 9 欠損値の見つけ方・削除方法

イメージ
データサイエンス体験動画「データサイエンス チュートリアル 猫のタロー編」の第11回目は、 Section 9「 欠損値の見つけ方・削除方法 」です。 データには、カラムに何も要素の無い「 欠損値 」が存在することがあります。欠損値があると、機械学習のプログラムがエラーになってしまうものがあるため、欠損値を見つけ、欠損値を含む行、列を除去する必要があります。  解説するプログラムは、次の4つです。  ⑰ データ名.sort_values(“列名”,ascending=False):前出  ⑲ データ名.iloc[行番号 :  ]  ⑳ データ名.isna().sum()  ㉑ データ名.dropna() ■ 概要を理解したい方は、下記の 動画 (11分12秒)をご覧ください。 PC操作画面を確認できます! ■ PowerPoint(パワポ) でじっくりと理解したい方は、 下記のスライドを参照してください。 Section 9 欠損値の見つけ方・削除方法 by @Cat_Taro

#10 Section 8 データ型の変更(キャスト)

イメージ
データサイエンス体験動画「データサイエンス チュートリアル 猫のタロー編」の第10回目は、Section 8「 データ型の変更(キャスト) 」です。 Section 5「データ型」の⑩では、データ型を指定して、Excelを読み込む方法を解説しましたが、今回は、 一度読み込んでしまったデータのデータ型を変更 する方法を解説します。 既に読み込んだデータのデータ型を変更するには、下記のプログラムを使います。  ⑱ データ名.astype({“列名”:データ型}) ■ 概要を理解したい方は、下記の 動画 (7分27秒)をご覧ください。 PC操作画面を確認できます! 同時に、データ構造(データの並び方)には、今回解説した「 辞書 」の他にも、「 リスト 」、「 タプル 」、「 セット 」等がありますので、下記の解説を読みながら、理解を深めていきましょう。 ■ PowerPoint(パワポ) でじっくりと理解したい方は、下記のスライドを参照してください。 Section 8 データ型の変更(キャスト) by @Cat_Taro 【参考】 詳細は、「pandasのデータ型dtype一覧とastypeによる変換(キャスト)」を参考にしてください! https://note.nkmk.me/python-pandas-dtype-astype/

#9 Section 7 最大値・要約統計量・ソート

イメージ
データサイエンス体験動画「データサイエンス チュートリアル 猫のタロー編」の第9回目は、「 数値の最大値の求め方 」を説明します。 以前のデータの確認では、データ数を確認するだけでしたが、最大値、最小値、平均などの 要約統計量 を確認することも重要です。 今回は、最大値を中心に、平均や標準偏差、最小値、中央値などの要約統計量を求める方法を解説します。具体的なプログラムは、次の4つです。  ⑭ データ名["列名"].max(axis=0)  ⑮ データ名.describe()  ⑯ print(データ名[“列名“])  ⑰ データ名.sort_values(“列名",ascending=False) ■ 概要を理解したい方は、下記の 動画 (9分30秒)をご覧ください。 PC操作画面を確認できます! ■ PowerPoint(パワポ) でじっくりと理解したい方は、下記のスライドを参照してください。 Section 7 数値の最大値の求め方 by @Cat_Taro

#8 Section 6 列の参照

イメージ
データサイエンス体験動画「データサイエンス チュートリアル 猫のタロー編」の第8回目は、「 列の参照 」を説明します。 Section 3と4では、データ全体を確認することを習得しましたが、ここでは、特定の列を選んで、確認する方法を解説します。  ⑪ データ名[“列名”]  ⑪' データ名.列名  ⑫ データ名[[“列名”]]  ⑫‘ データ名[[“列名1”], [“列名2”]]  ⑬ データ名[データ名[“列名”] > 数字]  ⑥’ len(データ名[データ名[“列名"] > 1000]) ⑬の 比較演算子 を使った方法は、データを確認するだけではなく、データの持つ数値の特徴をざっくりと見るうえで、重宝しますのでしっかりと身に付けましょう。 今回も、動画を見てから、 PowerPoint(パワポ)の資料を見た方がわかりやすいので、まずは動画から! ■ 動画で、PC操作画面を見ながら概要を理解したい方は、下記の 動画 (8分0秒)をご覧ください。 ■ PowerPoint(パワポ) の資料をじっくりと読み進めてください。 Section 6 列の参照 by @Cat_Taro

#7 Section 5 データ型

イメージ
データサイエンス体験動画「データサイエンス チュートリアル 猫のタロー編」の第7回目は、「 データ型 」を説明します。 Pandas では、各列ごとにそれぞれデータ型を保持していて、データ型それぞれに合った処理方法が決められています。このデータ型を確認する方法と、データを読み込む時にデータ型を修正する方法を解説します。  ⑨ 「データ名」.dtypes  ⑩ pd.read_excel("データのある場所",  dtype = {"カラム名": データ型}) 今回は、動画を見てから、 PowerPoint(パワポ)の資料を見た方がわかりやすいので、まずは動画から! ■ 動画で、PC操作画面を見ながら概要を理解したい方は、下記の 動画 (5分37秒)をご覧ください。 ■ PowerPoint(パワポ) の資料をじっくりと読み進めてください。 Section 5 データ型 by @Cat_Taro 【参考資料】 ●Excelデータの読み込み https://www.yutaka-note.com/entry/pandas_read_excel_1 ●pandasでcsv/tsvファイル読み込み https://note.nkmk.me/python-pandas-read-csv-tsv/

#6 Section 4 読み込んだデータの確認(2)

イメージ
データサイエンス体験動画「データサイエンス チュートリアル 猫のタロー編」の第6回目は、読み込んだデータの確認(2)を説明します。今回は、下記のプログラムを使って、データのサイズを取得する方法を解説します。  ⑥ len(データ名.index)  ⑦ データ名["カラム名"]  ⑧ データ名["カラム名"].unique() ※ 「カラム名」は、「列名 」 と同じことです。混在してしまって、すみません! また、理解を深めるために、下記の知識を身に付けていきます。 ●Pandasのデータ構造「 Series 」と「 DataFrame 」 ●データの個数の数え方:「 のべ 」と「 ユニーク 」の違い ■ 動画を見る前に、 下記の PowerPoint(パワポ) の資料を読み進めてください。 Section 4 読み込んだデータの確認(2) by @Cat_Taro ■ 動画で、PC操作画面を見ながら復習をしたい方は、下記の 動画 (6分47秒)をご覧ください。 【参考資料】 ●SeriesとDataFrameの変換 https://note.nkmk.me/python-pandas-dataframe-series-conversion/

#5 Section 3 読み込んだデータの確認(1)

イメージ
データサイエンス体験動画「データサイエンス チュートリアル 猫のタロー編」の第5回目は、読み込んだデータの確認(1)を説明します。まずは、データの 目視確認 です。 読み込んだデータ、処理をしたデータは必ず目視確認するようにしましょう!正確な分析をする上での基本です。 データを目視確認する主な方法は、次の3つです。  ③ 「データ名」 を記入して、実行。    → この場合は、最初と最後の5行が表示されます。  ④ 「データ名」.head() を記入して、実行。    → この場合は最初の5行が表示されます。()内に任意の数字を      半角で記入すると、その行数が表示されます。  ⑤ 「データ名」.tail() を記入して、実行。    → この場合は最後の5行が表示されます。()内に任意の数字を      半角で記入すると、その行数が表示されます。 ■ 動画を見る前に、 下記の PowerPoint(パワポ) の資料を読み進めてください。 Section 3 読み込んだデータの確認(1) by @Cat_Taro ■ 動画で、PC操作画面を見ながら復習をしたい方は、下記の 動画 (7分8秒)をご覧ください。 ちなみに、この「Online Retail.xlsx」のデータ概要は、下記を参照してください。 https://archive.ics.uci.edu/ml/datasets/online+retail#

#4 Section 2 ライブラリの選択とデータの読み込み

イメージ
#4は、「 ライブラリの選択とデータの読み込み」を説明します。 #4では、いよいよそこそこ大きなデータ(約54万行)を読み込んでいきます。前回G oogleドライブ に保存したデータを、 コラボ で読み込んで活用していきます。 ■ 動画を見る前に、 下記の PowerPoint(パワポ) の資料を読み進めてください。 Section 2 ライブラリの選択とデータの読み込み by @Cat_Taro パワポのスライドショーからリンクはたどれると思いますが、念のため、資料に出てきたリンクを記載しておきます。 ● 【超簡単】GoogleColabでGoogleドライブをマウント   https://kenko-keep.com/google-colab-mount/ ■ 動画で、PC操作画面を見ながら復習をしたい方は、下記の 動画 (4分22秒)をご覧ください。

【参考】Pythonの基礎を学ぶ教材

イメージ
 Pythonの基礎を学ぶイチオシの教材としては、下記の書籍があります。 Pythonの中で、データ分析や機械学習のプログラミングで最も使われるライブラリ(*1)である Pandasの開発者Wes McKinney による人気のテキストです。データ分析を行うための基本を網羅しており、すべてのサンプルコードはダウンロード可能で、Jupyter Notebook(ということはGoogel Colabでも可)で対話的に試し、実際に手を動かしながら知識を確実なものにすることが可能です。 ■  Pythonによるデータ分析入門 第2版 本文がp549もあり、カフェまで持ち歩くのは辛いので、気軽に勉強するには向かないのですが、しっかりと独学するためにはとても頼りになる本です。 また、東京大学 数理・情報教育研究センターが作成している無償の資料もあります。 ■  Pythonプログラミング入門 Googel Colabによるノートブック (プログラムを書いたり、その結果を表示する画面) の使い方 から、 Pythonの基礎 、 各種ライブラリ 、 機械学習 まで中級のデータサイエンティストになるにはこの資料で十分です。 ただし、上記の書籍、PDFはPythonの文法やライブラリの解説から始まりますので、データをハンドリングまでは、それなりの時間がかかります。 データ分析は、まずは データに触れる ところから始めるのが挫折しない秘訣だと思います。 英語の勉強も、文法から学ぶと途中でくじけてしまいますが、簡単な日常会話から学んで、実際に英語のネイティブと日常会話を楽しむことによって、ボキャブラリーや言い回しを増やしていく方が上達が早いのと同様です。 「Python実践データ分析100本ノック」は、ビジネスの現場でデータ分析を始める際に、最初のプログラムをどのように書いていくのかを実際のデータを用いて解説しています。ある程度、データ分析を経験した人向けなのですが、いきなり、この本の第一部「基礎編:データ加工」から始めてしまうのも、近道かもしれません。 先ずはこのテキストに書いてあるプログラムを理屈抜きに書いて、それを実行した結果が出たときは感動ものです。 ■  Python実践データ分析100本ノック 本当は、データの読み込み、そのデータがどのよう...

【参考】Pythonのインストール

イメージ
  (1) 色々な 業務の効率化 や Webプログラミング などの一般的なPythonプログラミングを基礎から使いたいという場合は、公式版のPythonをインストールします。 Python Japanが「Python環境構築ガイド」を公開しています。 ■  Python環境構築ガイド  https://www.python.jp/install/install.html (2) しかし、 データサイエンスでは、Anaconda経由でPythonをインストール してください。 ■  Anacondaのインストール     https://www.python.jp/install/anaconda/windows/install.html 科学技術計算などを中心とした、多くのモジュールやツールのコンパイル済みバイナリファイルを提供しており、簡単にPythonを利用する環境を構築できます。 Anaconda はPythonだけではなく、いろいろなユーティリティや他のプログラミング言語・ライブラリなども、パッケージ管理ツール Conda でインストールできます。curlなどの便利なユーティリティや、NvidiaのGPUを利用する場合に必要なCUDAなどの環境もインストールできるようになっています。 ※ Pythonを使う目的によって(1)、(2)を使い分けてインストールすることになります。参考書籍、WEBサイトなども異なった説明になりますので、混同しないように確認してください。 (3) Google Colaboratory(略称: Google Colab) Google Colab は、ブラウザから Python を実行 できるサービスです。 Google IDを持っていれば、すべての機能は無料で使うことができ、Googleドライブと連携できますので、プログラムをGoogleドライブに保存しておけば、ネット環境がある場所なら自宅でも、外出先でも気が付いた時にプログラムを新規作成、修正することができます。 はじめてPythonを学習する際には最適 です。また、機械学習など重い処理がハイスピードで行える GPU まで無料で使えますので、実用でも十分に使えます。 【最新版】Google Colaboratory とは?  ht...