投稿

10月 9, 2022の投稿を表示しています

【参考】Pythonの基礎を学ぶ教材

イメージ
 Pythonの基礎を学ぶイチオシの教材としては、下記の書籍があります。 Pythonの中で、データ分析や機械学習のプログラミングで最も使われるライブラリ(*1)である Pandasの開発者Wes McKinney による人気のテキストです。データ分析を行うための基本を網羅しており、すべてのサンプルコードはダウンロード可能で、Jupyter Notebook(ということはGoogel Colabでも可)で対話的に試し、実際に手を動かしながら知識を確実なものにすることが可能です。 ■  Pythonによるデータ分析入門 第2版 本文がp549もあり、カフェまで持ち歩くのは辛いので、気軽に勉強するには向かないのですが、しっかりと独学するためにはとても頼りになる本です。 また、東京大学 数理・情報教育研究センターが作成している無償の資料もあります。 ■  Pythonプログラミング入門 Googel Colabによるノートブック (プログラムを書いたり、その結果を表示する画面) の使い方 から、 Pythonの基礎 、 各種ライブラリ 、 機械学習 まで中級のデータサイエンティストになるにはこの資料で十分です。 ただし、上記の書籍、PDFはPythonの文法やライブラリの解説から始まりますので、データをハンドリングまでは、それなりの時間がかかります。 データ分析は、まずは データに触れる ところから始めるのが挫折しない秘訣だと思います。 英語の勉強も、文法から学ぶと途中でくじけてしまいますが、簡単な日常会話から学んで、実際に英語のネイティブと日常会話を楽しむことによって、ボキャブラリーや言い回しを増やしていく方が上達が早いのと同様です。 「Python実践データ分析100本ノック」は、ビジネスの現場でデータ分析を始める際に、最初のプログラムをどのように書いていくのかを実際のデータを用いて解説しています。ある程度、データ分析を経験した人向けなのですが、いきなり、この本の第一部「基礎編:データ加工」から始めてしまうのも、近道かもしれません。 先ずはこのテキストに書いてあるプログラムを理屈抜きに書いて、それを実行した結果が出たときは感動ものです。 ■  Python実践データ分析100本ノック 本当は、データの読み込み、そのデータがどのようなものかの確認、データの見える化などか

【参考】Pythonのインストール

イメージ
  (1) 色々な 業務の効率化 や Webプログラミング などの一般的なPythonプログラミングを基礎から使いたいという場合は、公式版のPythonをインストールします。 Python Japanが「Python環境構築ガイド」を公開しています。 ■  Python環境構築ガイド  https://www.python.jp/install/install.html (2) しかし、 データサイエンスでは、Anaconda経由でPythonをインストール してください。 ■  Anacondaのインストール     https://www.python.jp/install/anaconda/windows/install.html 科学技術計算などを中心とした、多くのモジュールやツールのコンパイル済みバイナリファイルを提供しており、簡単にPythonを利用する環境を構築できます。 Anaconda はPythonだけではなく、いろいろなユーティリティや他のプログラミング言語・ライブラリなども、パッケージ管理ツール Conda でインストールできます。curlなどの便利なユーティリティや、NvidiaのGPUを利用する場合に必要なCUDAなどの環境もインストールできるようになっています。 ※ Pythonを使う目的によって(1)、(2)を使い分けてインストールすることになります。参考書籍、WEBサイトなども異なった説明になりますので、混同しないように確認してください。 (3) Google Colaboratory(略称: Google Colab) Google Colab は、ブラウザから Python を実行 できるサービスです。 Google IDを持っていれば、すべての機能は無料で使うことができ、Googleドライブと連携できますので、プログラムをGoogleドライブに保存しておけば、ネット環境がある場所なら自宅でも、外出先でも気が付いた時にプログラムを新規作成、修正することができます。 はじめてPythonを学習する際には最適 です。また、機械学習など重い処理がハイスピードで行える GPU まで無料で使えますので、実用でも十分に使えます。 【最新版】Google Colaboratory とは?  https://blog.kikagaku.co.j

【参考】データサイエンスのためのプログラム言語

イメージ
データサイエンスを身に付けるためには、データ分析を自らが行うことが大切です。理論を学ぶだけでは理解することが難しいですし、なにより目の前のデータを自分で分析して、自分なりの仮説を立てることはとても楽しいことです。 その際に、どのプログラム言語から学ぶのか、迷ってしまうことがあるでしょう。 個人的に学ぶ場合は、導入費用も気になるところです。 先ずは、どのようなプログラム言語があるのかを見てみましょう。 Python、R、S、SAS、SQL、Java、MATLAB、最近ではJulia、Scalaなどがあります。それぞれの概要は、下記を参照してみてください。 ■  データサイエンティストが学ぶべきプログラミング言語   https://goworkship.com/magazine/data-scientist-programming/ 様々なものがあるのですが、現在、Pythonがデータサイエンスのためのプログラミング言語の中では最も人気が高い言語です。まずは、 Pythonから始める という選択が今の標準だと思います。データを集計したり、グラフを描いたりといった基本的なことから、機械学習まで幅広いスキルアップに対応しています。また、 無料 で使うことができます。 Pythonの特徴は、下記を下記を参照してみてください。 ■  Python(パイソン)とは?特徴や強みを解説   https://www.agaroot.jp/datascience/column/python/ ちなみに、私はSから始めましたが、それはSをエンジンとし、GUIが優れた「 Visual Mining Studio 」というパッケージと出会ったからでした。汚いデータの前処理や分析メニュー選択がクリック&ドラッグで行えることが選んだ理由です。また、営業のTさんが高校の後輩だったり、開発者のJさんが私のような初心者の要望を取り入れ開発してくれたという人間関係も大きな理由となっています。 今は、よっぽどの人間関係がない限り、Pythonから始めましょう!

Section 1 分析に使うデータの準備とGoogle Colaboratory(コラボ)にアクセスしよう!

イメージ
さて、#3は、 分析に使うデータの準備とGoogle Colaboratoryを説明します。 #3でつまずき易いの は、 GoogleドライブやGoogle Colaboratory(以下「コラボ」)のファイルがどこに存在しているかを理解 することです。これは、慣れればどうということはないのですが…。 ■ 資料を読みながら、マイペースで進みたい方は、下記の PowerPoint(パワポ) の資料を読み進めてください。 #3 分析に使うデータの準備とGoogle Colaboratory(コラボ)にアクセスしよう! by @Cat_Taro パワポのスライドショーからリンクはたどれると思いますが、念のため、資料に出てきたリンクを記載しておきます。 ●Google ID を取得   https://support.google.com/accounts/answer/27441 ● Colab(コラボ)にアクセス   https://colab.research.google.com/notebooks/intro.ipynb ● Google Colaboratory とは?使い方・メリット・設定などを徹底解説!   https://blog.kikagaku.co.jp/google-colab-howto ● 「Online Retail.xlsx」のダウンロード   Online Retail - UCI Machine Learning Repository  → 右上の「DOWNLOAD」をクリックしてください。 ★たまにURLが変更されますので、リンクが切れている時は「 Online Retail 」でググって、ダウンロードしてください。 ■ 動画で、PC操作画面を見ながら復習をしたい方は、下記の 動画 (9分6秒)をご覧ください。

はじめに このチュートリアルの解説

イメージ
こんにちは!前回は、なぜ、データサイエンスを体験するのか?を説明させていただきました。 いよいよ、本論に入っていきたいと思います。 「データサイエンス チュートリアル」は、1st STEPとして「 ビッグデータの読み込みとデータの確認 」、2nd STEPとして「 集計とグラフ描画 」から成り立っています。まずは、1st STEP「ビッグデータの読み込みとデータの確認」を習得していきましょう。 猫のタロ-の経験ですが、 データ分析の第1歩は、まずはデータを読み込み 、その データを眺めてみる ことから始まります。1st STEPは、ここを徹底的にマスターすることが目標です。このことにより、Pythonの基本的な操作も身に付きます。 また、この「チュートリアル」で分析対象となるのは「 ID-POSデータ 」と呼ばれるもので、具体的には、nanaco、WAON等の電子マネーの購入履歴データ等のことです。「POSデータ」は、「何が、いつ、いくつ、いくらで売れたのか」が記録された情報ですが、ここに「誰に(売れたのか)=誰が(買ったのか)」という情報が追加されると「ID-POSデータ」になります。マーケティングでは、既に顧客分析の主流となっていますし、IDにいくつかの項目が横に並んでいるデータ構造は応用範囲が広いものです。 この「チュートリアル」では、プログラミング言語として Python(パイソン) を選択しました。 Pythonは、無償で、コードが読み書きしやすく学びやすいプログラミング言語で、数値計算・データ解析・機械学習の開発に特化した専門性の高いライブラリが豊富なことから、世界中で利用者が多く、ネット上には豊富なコンテンツが存在します。また、 PythonはAI分野の開発の主要言語 です。 Pythonのプログラミングを 開発する環境 としては、 Google Colaboratory(以下Colab/コラボ) を使用します。 Colabは、 Google ID を持っていれば、 すべての機能を無料で使う ことができ、Googleドライブと連携もできますので、プログラムをGoogleドライブに保存しておけば、ネット環境がある場所なら自宅でも、外出先でも気が付いた時にプログラムを新規作成、修正することができます。はじめてPythonを学習する際には最適です。また、機械

序章 データサイエンスを体験するワケ

イメージ
みなさん、こんにちは! 猫のタローです。猫の姿をしていますが、前世ではデータサイエンティストをしていました。これから、データサイエンス体験ブログ「データサイエンス チュートリアル 猫のタロー編」を始めます。 まずは、 なぜ、データサイエンスを体験するのか? ご説明します。 それは、ずばり、ビジネススキルを身に付け、収入が高いポジションを狙うためです。 日本は、1990年以降、経済活動の水準を表す名目GDPは伸び悩み、他国に大きく水をあけられています。さらに深刻なことは、 平均賃金が、30年間で、日本はたった4.4%しか上昇 していません。 米国47% 、 イギリス44% 上昇しているのとは対照的ですね。  企業業績も伸び悩んでいます。 株価に発行済み株式数を掛けた「総時価額」を比較してみましょう。1989年の世界TOP5はすべて日本企業でした。それに対して、2019年は日本企業は1社も入っていません。日本企業の最高は、43位でトヨタ自動車です。 さて、2019年のランキングをじっくりと見てみましょう。 5位のシェル以外はすべて、IT企業です。これらの企業はビッグデータを所有し、人工知能、AIを活用していることでも話題になっている企業です。 猫のタローは、ここに注目しました。 下記を見てください。これは、IT分野で世界的に有名なガートナーの元エグゼクティブ・バイスプレジデント、ピーター・ソンダーガードが2011年に残した言葉です。 情報は 21 世紀の石油であり、分析は燃焼エンジン 彼は、アップル、マイクロソフト、アマゾン、グーグル(現アルファベット)がビッグデータをAIで分析して驚異的な業績を上げることを10年前も前に予言していたのですね。 この新たな資源であるデータから、ビジネスのエネルギーを生み出すのが、データサイエンスです。新たなスキルを身に付けて、ビジネスの世界で活躍する方々を応援するために、この「動画」を作りました。実際に、令和元年の データサイエンティストの平均年収はかなり高く なっています。 最近のベストセラー「ブルシットジョブ クソどうでもいい仕事の理論」では、先進国のビジネスパーソンの約4割が、自分の仕事は、世の中に貢献していないと答えています。私、猫のタローは、みなさんが、年収が高いだけでなく、 世の中に貢献 する仕事に就いていただきたいと思って