はじめに このチュートリアルの解説
こんにちは!前回は、なぜ、データサイエンスを体験するのか?を説明させていただきました。
いよいよ、本論に入っていきたいと思います。
「データサイエンス チュートリアル」は、1st STEPとして「ビッグデータの読み込みとデータの確認」、2nd STEPとして「集計とグラフ描画」から成り立っています。まずは、1st STEP「ビッグデータの読み込みとデータの確認」を習得していきましょう。
猫のタロ-の経験ですが、データ分析の第1歩は、まずはデータを読み込み、そのデータを眺めてみることから始まります。1st STEPは、ここを徹底的にマスターすることが目標です。このことにより、Pythonの基本的な操作も身に付きます。
また、この「チュートリアル」で分析対象となるのは「ID-POSデータ」と呼ばれるもので、具体的には、nanaco、WAON等の電子マネーの購入履歴データ等のことです。「POSデータ」は、「何が、いつ、いくつ、いくらで売れたのか」が記録された情報ですが、ここに「誰に(売れたのか)=誰が(買ったのか)」という情報が追加されると「ID-POSデータ」になります。マーケティングでは、既に顧客分析の主流となっていますし、IDにいくつかの項目が横に並んでいるデータ構造は応用範囲が広いものです。
この「チュートリアル」では、プログラミング言語としてPython(パイソン)を選択しました。
Pythonは、無償で、コードが読み書きしやすく学びやすいプログラミング言語で、数値計算・データ解析・機械学習の開発に特化した専門性の高いライブラリが豊富なことから、世界中で利用者が多く、ネット上には豊富なコンテンツが存在します。また、PythonはAI分野の開発の主要言語です。
Pythonのプログラミングを開発する環境としては、 Google Colaboratory(以下Colab/コラボ)を使用します。
Colabは、Google IDを持っていれば、すべての機能を無料で使うことができ、Googleドライブと連携もできますので、プログラムをGoogleドライブに保存しておけば、ネット環境がある場所なら自宅でも、外出先でも気が付いた時にプログラムを新規作成、修正することができます。はじめてPythonを学習する際には最適です。また、機械学習など重い処理がハイスピードで行える GPU まで無料で使えますので、実用でも十分に使えます。
■まずは、概要を理解したい方は、下記の動画(4分48秒)をご覧ください。
コメント
コメントを投稿