投稿

ラベル(チュートリアル(動画付))が付いた投稿を表示しています

Section 10 queryを使った複数条件での抽出

イメージ
データサイエンス体験動画「データサイエンス チュートリアル 猫のタロー編」の第12回目は、 Section 10「 queryを使った複数条件での抽出 」です。 #8 「列の参照」では、列名を指定して、比較演算子を書くことによって、その列の条件に当てはまる行のみを参照する方法を解説しましたが、今回は、複数条件の組み合わせが、簡潔に記述できる「query」について解説します。 解説するプログラムは、次の4つです。  ㉒ データ名.query(“数字1 <= 列名 <= 数字2”)  ㉓ データ名.query(“列名 ! == 列名”)  ㉔ データ名.query(“列名 == 列名”)  ㉕ データ名.query(“論理演算1" and "論理演算2") 「query」は、 複数の比較演算子を用いる場合 や「and」、「or」、「not」等の 論理演算子 を使う場合にも対応していますので、とっても便利なものです。 また、結果の確認のために、「len()」、「describe()」も使います。復習してみてください! ■ 概要を理解したい方は、下記の 動画 (8分44秒)をご覧ください。 PC操作画面を確認できます! ■ PowerPoint(パワポ) でじっくりと理解したい方は、 下記のスライドを参照してください。 Section 10 queryを使った複数条件での抽出 by @Cat_Taro

Section 9 欠損値の見つけ方・削除方法

イメージ
データサイエンス体験動画「データサイエンス チュートリアル 猫のタロー編」の第11回目は、 Section 9「 欠損値の見つけ方・削除方法 」です。 データには、カラムに何も要素の無い「 欠損値 」が存在することがあります。欠損値があると、機械学習のプログラムがエラーになってしまうものがあるため、欠損値を見つけ、欠損値を含む行、列を除去する必要があります。  解説するプログラムは、次の4つです。  ⑰ データ名.sort_values(“列名”,ascending=False):前出  ⑲ データ名.iloc[行番号 :  ]  ⑳ データ名.isna().sum()  ㉑ データ名.dropna() ■ 概要を理解したい方は、下記の 動画 (11分12秒)をご覧ください。 PC操作画面を確認できます! ■ PowerPoint(パワポ) でじっくりと理解したい方は、 下記のスライドを参照してください。 Section 9 欠損値の見つけ方・削除方法 by @Cat_Taro

Section 8 データ型の変更(キャスト)

イメージ
データサイエンス体験動画「データサイエンス チュートリアル 猫のタロー編」の第10回目は、Section 8「 データ型の変更(キャスト) 」です。 Section 5「データ型」の⑩では、データ型を指定して、Excelを読み込む方法を解説しましたが、今回は、 一度読み込んでしまったデータのデータ型を変更 する方法を解説します。 既に読み込んだデータのデータ型を変更するには、下記のプログラムを使います。  ⑱ データ名.astype({“列名”:データ型}) ■ 概要を理解したい方は、下記の 動画 (7分27秒)をご覧ください。 PC操作画面を確認できます! 同時に、データ構造(データの並び方)には、今回解説した「 辞書 」の他にも、「 リスト 」、「 タプル 」、「 セット 」等がありますので、下記の解説を読みながら、理解を深めていきましょう。 ■ PowerPoint(パワポ) でじっくりと理解したい方は、下記のスライドを参照してください。 Section 8 データ型の変更(キャスト) by @Cat_Taro 【参考】 詳細は、「pandasのデータ型dtype一覧とastypeによる変換(キャスト)」を参考にしてください! https://note.nkmk.me/python-pandas-dtype-astype/

Section 7 数値の最大値の求め方

イメージ
データサイエンス体験動画「データサイエンス チュートリアル 猫のタロー編」の第9回目は、「 数値の最大値の求め方 」を説明します。 以前のデータの確認では、データ数を確認するだけでしたが、最大値、最小値、平均などの 要約統計量 を確認することも重要です。 今回は、最大値を中心に、平均や標準偏差、最小値、中央値などの要約統計量を求める方法を解説します。具体的なプログラムは、次の4つです。  ⑭ データ名["列名"].max(axis=0)  ⑮ データ名.describe()  ⑯ print(データ名[“列名“])  ⑰ データ名.sort_values(“列名",ascending=False) ■ 概要を理解したい方は、下記の 動画 (9分30秒)をご覧ください。 PC操作画面を確認できます! ■ PowerPoint(パワポ) でじっくりと理解したい方は、下記のスライドを参照してください。 Section 7 数値の最大値の求め方 by @Cat_Taro

Section 6 列の参照

イメージ
データサイエンス体験動画「データサイエンス チュートリアル 猫のタロー編」の第8回目は、「 列の参照 」を説明します。 Section 3と4では、データ全体を確認することを習得しましたが、ここでは、特定の列を選んで、確認する方法を解説します。  ⑪ データ名[“列名”]  ⑪' データ名.列名  ⑫ データ名[[“列名”]]  ⑫‘ データ名[[“列名1”], [“列名2”]]  ⑬ データ名[データ名[“列名”] > 数字]  ⑥’ len(データ名[データ名[“列名"] > 1000]) ⑬の 比較演算子 を使った方法は、データを確認するだけではなく、データの持つ数値の特徴をざっくりと見るうえで、重宝しますのでしっかりと身に付けましょう。 今回も、動画を見てから、 PowerPoint(パワポ)の資料を見た方がわかりやすいので、まずは動画から! ■ 動画で、PC操作画面を見ながら概要を理解したい方は、下記の 動画 (8分0秒)をご覧ください。 ■ PowerPoint(パワポ) の資料をじっくりと読み進めてください。 Section 6 列の参照 by @Cat_Taro

Section 5 データ型

イメージ
データサイエンス体験動画「データサイエンス チュートリアル 猫のタロー編」の第7回目は、「 データ型 」を説明します。 Pandas では、各列ごとにそれぞれデータ型を保持していて、データ型それぞれに合った処理方法が決められています。このデータ型を確認する方法と、データを読み込む時にデータ型を修正する方法を解説します。  ⑨ 「データ名」.dtypes  ⑩ pd.read_excel("データのある場所",  dtype = {"カラム名": データ型}) 今回は、動画を見てから、 PowerPoint(パワポ)の資料を見た方がわかりやすいので、まずは動画から! ■ 動画で、PC操作画面を見ながら概要を理解したい方は、下記の 動画 (5分37秒)をご覧ください。 ■ PowerPoint(パワポ) の資料をじっくりと読み進めてください。 Section 5 データ型 by @Cat_Taro 【参考資料】 ●Excelデータの読み込み https://www.yutaka-note.com/entry/pandas_read_excel_1 ●pandasでcsv/tsvファイル読み込み https://note.nkmk.me/python-pandas-read-csv-tsv/

Section 4 読み込んだデータの確認(2)

イメージ
データサイエンス体験動画「データサイエンス チュートリアル 猫のタロー編」の第6回目は、読み込んだデータの確認(2)を説明します。今回は、下記のプログラムを使って、データのサイズを取得する方法を解説します。  ⑥ len(データ名.index)  ⑦ データ名["カラム名"]  ⑧ データ名["カラム名"].unique() ※ 「カラム名」は、「列名 」 と同じことです。混在してしまって、すみません! また、理解を深めるために、下記の知識を身に付けていきます。 ●Pandasのデータ構造「 Series 」と「 DataFrame 」 ●データの個数の数え方:「 のべ 」と「 ユニーク 」の違い ■ 動画を見る前に、 下記の PowerPoint(パワポ) の資料を読み進めてください。 Section 4 読み込んだデータの確認(2) by @Cat_Taro ■ 動画で、PC操作画面を見ながら復習をしたい方は、下記の 動画 (6分47秒)をご覧ください。 【参考資料】 ●SeriesとDataFrameの変換 https://note.nkmk.me/python-pandas-dataframe-series-conversion/

Section 3 読み込んだデータの確認(1)

イメージ
データサイエンス体験動画「データサイエンス チュートリアル 猫のタロー編」の第5回目は、読み込んだデータの確認(1)を説明します。まずは、データの 目視確認 です。 読み込んだデータ、処理をしたデータは必ず目視確認するようにしましょう!正確な分析をする上での基本です。 データを目視確認する主な方法は、次の3つです。  ③ 「データ名」 を記入して、実行。    → この場合は、最初と最後の5行が表示されます。  ④ 「データ名」.head() を記入して、実行。    → この場合は最初の5行が表示されます。()内に任意の数字を      半角で記入すると、その行数が表示されます。  ⑤ 「データ名」.tail() を記入して、実行。    → この場合は最後の5行が表示されます。()内に任意の数字を      半角で記入すると、その行数が表示されます。 ■ 動画を見る前に、 下記の PowerPoint(パワポ) の資料を読み進めてください。 Section 3 読み込んだデータの確認(1) by @Cat_Taro ■ 動画で、PC操作画面を見ながら復習をしたい方は、下記の 動画 (7分8秒)をご覧ください。 ちなみに、この「Online Retail.xlsx」のデータ概要は、下記を参照してください。 https://archive.ics.uci.edu/ml/datasets/online+retail#

Section 2 ライブラリの選択とデータの読み込み

イメージ
#4は、「 ライブラリの選択とデータの読み込み」を説明します。 #4では、いよいよそこそこ大きなデータ(約54万行)を読み込んでいきます。前回G oogleドライブ に保存したデータを、 コラボ で読み込んで活用していきます。 ■ 動画を見る前に、 下記の PowerPoint(パワポ) の資料を読み進めてください。 Section 2 ライブラリの選択とデータの読み込み by @Cat_Taro パワポのスライドショーからリンクはたどれると思いますが、念のため、資料に出てきたリンクを記載しておきます。 ● 【超簡単】GoogleColabでGoogleドライブをマウント   https://kenko-keep.com/google-colab-mount/ ■ 動画で、PC操作画面を見ながら復習をしたい方は、下記の 動画 (4分22秒)をご覧ください。

Section 1 分析に使うデータの準備とGoogle Colaboratory(コラボ)にアクセスしよう!

イメージ
さて、#3は、 分析に使うデータの準備とGoogle Colaboratoryを説明します。 #3でつまずき易いの は、 GoogleドライブやGoogle Colaboratory(以下「コラボ」)のファイルがどこに存在しているかを理解 することです。これは、慣れればどうということはないのですが…。 ■ 資料を読みながら、マイペースで進みたい方は、下記の PowerPoint(パワポ) の資料を読み進めてください。 #3 分析に使うデータの準備とGoogle Colaboratory(コラボ)にアクセスしよう! by @Cat_Taro パワポのスライドショーからリンクはたどれると思いますが、念のため、資料に出てきたリンクを記載しておきます。 ●Google ID を取得   https://support.google.com/accounts/answer/27441 ● Colab(コラボ)にアクセス   https://colab.research.google.com/notebooks/intro.ipynb ● Google Colaboratory とは?使い方・メリット・設定などを徹底解説!   https://blog.kikagaku.co.jp/google-colab-howto ● 「Online Retail.xlsx」のダウンロード   Online Retail - UCI Machine Learning Repository  → 右上の「DOWNLOAD」をクリックしてください。 ★たまにURLが変更されますので、リンクが切れている時は「 Online Retail 」でググって、ダウンロードしてください。 ■ 動画で、PC操作画面を見ながら復習をしたい方は、下記の 動画 (9分6秒)をご覧ください。

はじめに このチュートリアルの解説

イメージ
こんにちは!前回は、なぜ、データサイエンスを体験するのか?を説明させていただきました。 いよいよ、本論に入っていきたいと思います。 「データサイエンス チュートリアル」は、1st STEPとして「 ビッグデータの読み込みとデータの確認 」、2nd STEPとして「 集計とグラフ描画 」から成り立っています。まずは、1st STEP「ビッグデータの読み込みとデータの確認」を習得していきましょう。 猫のタロ-の経験ですが、 データ分析の第1歩は、まずはデータを読み込み 、その データを眺めてみる ことから始まります。1st STEPは、ここを徹底的にマスターすることが目標です。このことにより、Pythonの基本的な操作も身に付きます。 また、この「チュートリアル」で分析対象となるのは「 ID-POSデータ 」と呼ばれるもので、具体的には、nanaco、WAON等の電子マネーの購入履歴データ等のことです。「POSデータ」は、「何が、いつ、いくつ、いくらで売れたのか」が記録された情報ですが、ここに「誰に(売れたのか)=誰が(買ったのか)」という情報が追加されると「ID-POSデータ」になります。マーケティングでは、既に顧客分析の主流となっていますし、IDにいくつかの項目が横に並んでいるデータ構造は応用範囲が広いものです。 この「チュートリアル」では、プログラミング言語として Python(パイソン) を選択しました。 Pythonは、無償で、コードが読み書きしやすく学びやすいプログラミング言語で、数値計算・データ解析・機械学習の開発に特化した専門性の高いライブラリが豊富なことから、世界中で利用者が多く、ネット上には豊富なコンテンツが存在します。また、 PythonはAI分野の開発の主要言語 です。 Pythonのプログラミングを 開発する環境 としては、 Google Colaboratory(以下Colab/コラボ) を使用します。 Colabは、 Google ID を持っていれば、 すべての機能を無料で使う ことができ、Googleドライブと連携もできますので、プログラムをGoogleドライブに保存しておけば、ネット環境がある場所なら自宅でも、外出先でも気が付いた時にプログラムを新規作成、修正することができます。はじめてPythonを学習する際には最適です。また、機械

序章 データサイエンスを体験するワケ

イメージ
みなさん、こんにちは! 猫のタローです。猫の姿をしていますが、前世ではデータサイエンティストをしていました。これから、データサイエンス体験ブログ「データサイエンス チュートリアル 猫のタロー編」を始めます。 まずは、 なぜ、データサイエンスを体験するのか? ご説明します。 それは、ずばり、ビジネススキルを身に付け、収入が高いポジションを狙うためです。 日本は、1990年以降、経済活動の水準を表す名目GDPは伸び悩み、他国に大きく水をあけられています。さらに深刻なことは、 平均賃金が、30年間で、日本はたった4.4%しか上昇 していません。 米国47% 、 イギリス44% 上昇しているのとは対照的ですね。  企業業績も伸び悩んでいます。 株価に発行済み株式数を掛けた「総時価額」を比較してみましょう。1989年の世界TOP5はすべて日本企業でした。それに対して、2019年は日本企業は1社も入っていません。日本企業の最高は、43位でトヨタ自動車です。 さて、2019年のランキングをじっくりと見てみましょう。 5位のシェル以外はすべて、IT企業です。これらの企業はビッグデータを所有し、人工知能、AIを活用していることでも話題になっている企業です。 猫のタローは、ここに注目しました。 下記を見てください。これは、IT分野で世界的に有名なガートナーの元エグゼクティブ・バイスプレジデント、ピーター・ソンダーガードが2011年に残した言葉です。 情報は 21 世紀の石油であり、分析は燃焼エンジン 彼は、アップル、マイクロソフト、アマゾン、グーグル(現アルファベット)がビッグデータをAIで分析して驚異的な業績を上げることを10年前も前に予言していたのですね。 この新たな資源であるデータから、ビジネスのエネルギーを生み出すのが、データサイエンスです。新たなスキルを身に付けて、ビジネスの世界で活躍する方々を応援するために、この「動画」を作りました。実際に、令和元年の データサイエンティストの平均年収はかなり高く なっています。 最近のベストセラー「ブルシットジョブ クソどうでもいい仕事の理論」では、先進国のビジネスパーソンの約4割が、自分の仕事は、世の中に貢献していないと答えています。私、猫のタローは、みなさんが、年収が高いだけでなく、 世の中に貢献 する仕事に就いていただきたいと思って