投稿

#39 マスタを使って新たな列を追加

イメージ
今回は、私、小次郎が作成した都道府県別番号マスタを使って、都道府県別番号を都道府県名に変換していきます。 元データとマスタのように、2つのデータを共通な列名で結合する場合、「 merge ( マージ )」を使って、下記のようにプログラムを書きます。 ●pd.merge(データ1, データ2, on=“列名”, how=‘結合方法’) 「データ1」を「left」、 「データ2」を「right」と呼び、「on=」の次の列名には「left」と「right」に共通な列名を指定します。この共通な列名を「キー」と呼びます。 また、マージによる結合の仕方には、「キー」以外の列の要素(行)に関して、それぞれの行をどのように残すかにより次の4種類に分類できます。 ① inner join( 内部結合)→これはデフォルトとなります。 ② left join (左結合) ③ right join (右結合) ④ outer join (外部結合) ■ まずは、下記の 動画 (8分30秒)をご覧ください。 ■ リンク先等を見たり、自分のペースで見たい方は、 下記のスライドを参照してください。 #39 マスタを使って新たな列を追加 by @Cat_Taro

#38 分析の準備

イメージ
さて、NDBデータから作成した分析用の「naihuku.csv」を用いて、いよいよデータを分析していきます。 今回は、基礎編の書籍化などで、しばらく間が空いてしまいましたので、準備運動代わりに分析の準備を下記の段取りにて行います。 1.分析用ノートブックの作成 2.データの読み込み ここでは、列名「薬効分類」、列名「都道府県番号」の小数点以下をカットします。分析上は問題ないのですが、すっきりしたデータに直します。 3.データ型の確認 4.「医薬品名」ごとの薬価を示す列の追加 ■ まずは、下記の 動画 (4分37秒)をご覧ください。 ■ リンク先等を見たり、自分のペースで見たい方は、 下記のスライドを参照してください。 #38 分析の準備 by @Cat_Taro

データサイエンス関連の資格 後編

イメージ
前偏に引き続いて、データサイエンス関連の資格について考えていきます。 IT系には、国家資格、民間資格を合わせると非常に多くの資格が存在しますが、下記の3方向から資格を分類してみました。 ① Pythonの資格 ② データサイエンスの資格 (1)ビジネス寄り (2)エンジニア寄り ③ プログラミング全般の資格 (1)国家資格 (2)民間資格 また、このチュートリアルの位置づけも考えてみましたので、今後のさらなるスキルアップの学習計画立案に参考にしてみてください。 ************ 参考資料 ************ ★参照リンク 1.データサイエンス チュートリアル/基礎編 https://datascience.official.ec/ 2.Python 3 エンジニア認定データ分析試験 https://www.pythonic-exam.com/exam/analyist 3.Python 3 エンジニア認定データ分析実践試験 https://www.pythonic-exam.com/archives/news/cpda-2 4.データサイエンティスト検定 リテラシーレhttps://www.datascientist.or.jp/dscertification/what/ 5.G検定 https://www.jdla.org/certificate/general/ 6.データサイエンス数学ストラテジスト(中級)/データサイエンス数学ストラテジスト(上級) https://www.su-gaku.net/math-ds/ 7.統計検定データサイエンス基礎 https://www.toukei-kentei.jp/exam/grade11/ 8.統計検定データサイエンス発展 https://www.toukei-kentei.jp/exam/grade12/ 9.統計検定データサイエンスエキスパート https://www.toukei-kentei.jp/exam/grade13/ 10.E資格 https://www.jdla.org/certificate/engineer/ 11.ITパスポート試験 https://www.ipa.go.jp/shiken/kubun/ip.html 12.情報セキュリティマネジメント試験 https://www

データサイエンス関連の資格_前編

イメージ
こんにちは、猫のタローです。 今日は、データサイエンス関連の 資格 について考えていきましょう。 今まで、ブログや動画で続けてきた「データサイエンス チュートリアル/基礎編」は、知識がまったくなくても、見よう見まねで、基本的なプログラムを書いてみて、その楽しさがわかったら、本格的な学習に進むきっかけになればと始めたものです。 しかし、テキストを配布してしばらくたつと、このチュートリアルを体験してみて、本格的にデータサイエンスの学習に進もうと決意した方々が、 次は何を目指すべきか 、指針が必要だと感じました。 そこで、データサイエンス関連の資格にはどのようなものがあり、その中で、このチュートリアルの位置づけはどのようなものかを解説することにしました。 データサイエンティストになるためには、資格だけではなく、実践経験がとても重要ですが、 学習の指針 、 実務経験のチャンスを得る ためには、資格の取得が必須となることもあります。本格的にデータサイエンスの学習に進もうと決意した方々は、参考にしてください。 前編では、データサイエンティストの定義、スキル、「データサイエンス チュートリアル/基礎編」で身に付くことを改めて振り返ります。 ************ ■ まずは、下記の 動画 (4分18秒)をご覧ください。 リンクはこちら↓ データサイエンティスト協会が定義しているスキル  ■ スキルチェックリスト ver.5  ■ タスクリスト ver.4 データサイエンス チュートリアル/基礎編 ■ リンク先等を見たり、自分のペースで見たい方は、 下記のスライドを参照してください。 データサイエンス関連資格_前編 by @Cat_Taro

このブログが書籍になりました! 第2弾!

『1st Step ビッグデータの読み込みとデータの確認』で作成した「id_pos4」、いわゆる「きれいなデータ」を用いて、データの見える化、およびレポーティング用(報告書・会議用資料)の集計を行っていきます。 グラフは、「seaborn」等を用いて、インパクトのあるグラフを少ないコードで描いていきます。グラフによるデータの見える化で、より深い洞察が得られることと思います。 グラフにするためのデータの前処理やグラフの不具合についても、よくある間違い実例で解説しています。 →  購入はこちら

このブログが書籍になりました! 第1弾!

データサイエンスに興味を持ってはいるが、データサイエンスに本気でダイブしようかどうか迷っている方々、そのような方々に分析を体験してみる機会を提供するために、この ブログ「データサイエンス チュートリアル」、およびYoutube「 DataScience_for_everyone 」を始めました。 知識がまったくなくても、見よう見まねで、基本的なプログラムを書いてみて、その楽しさがわかったら、本格的な学習に進むきっかけになればと思ったのが始めた動機です。 うれしいことに、読者や視聴者の中には、初めから、基本的なプログラムをしっかり身に付けたいという要望を持つ方も現れました。 そこで、ブログと動画をまとめたテキストを出版することにしました。 第1弾は、『1st Step ビッグデータの読み込みとデータの確認』です。  引用URLやページ内のリンクを活かすためにPDFで作成しました。 → 購入はこちら ブログや動画を、スキマ時間や通勤時間にスマホで見聞きし、週末など1時間程度時間が取れる時に、このテキストを参考にして、実際にコラボを起動してプログラムを書いてみる。そんな使い方を想定しています。 慣れてきたら、このテキストにある参考資料を読んで、このテキストのプログラムをちょっと変えてみて、コラボで動くかどうか確認してみる事も、スキルを身に付けるためにとても有効です。自分なりのコラボ・ノートブックを作りましょう。 もちろん、初めからこのテキストに取り組んでも構いません。 どのような使い方であれ、このテキストが最初の一歩になり、あなたがデータサイエンスを身に付け、それがリスキリングにつながり、より充実した人生を送れるようになることを願ってやみません。

#37 Interactive Table

イメージ
まずは、前回、縦型(long型)に変換したデータをよく見てみましょう。列名「個数」末尾の方に、「-」(ハイフン)が存在します。 これは、データが存在しないことを表しますが、Pythonはその意味を理解しません。欠損値「NaN」と変換しておきましょう。#30「Section 28 ピボットテーブル(2)」に出てきた77を思い出してください。 ● データを縦型に変換する    77  データ名.replace(“元の要素”, “新しい要素”) また、「“新しい要素”」を 欠損値 に置換する場合は、「 np.nan 」と記載します。この場合、「” ”」は、要りません。 さて、コラボには、pandasデータフレームをインタラクティブなディスプレイに変換する拡張機能「 Interactive Table 」があります。このディスプレイは、フィルタリング、並べ替え、探索などを行うことができます。 データを保存する前に、「Interactive Table」を体験していきましょう。 最後はデータを保存します。 ● データを保存する    ㉘ データ名.to_csv(‘保存するフォルダーのパス/新データ名.csv’) ************ ■ まずは、下記の 動画 (5分5秒)をご覧ください。 ■ 次にプログラムの 解説 を自分のペースで読み、コラボでプログラムを書いてみましょう。 下記のスライドを参照してください。 #37 Interactive Table by @Cat_Taro ************ ■ このセクションのプログラムは下記のようになります。    実際に、コピペして コラボ で試してみましょう! df_all4.replace("-", np.nan, inplace=True) df_all4 df_all4.query('医薬品名 == ["タケキャブ錠20mg"]') df_all4.to_csv('/content/drive/MyDrive/Colab Notebooks/医療/naihuku.csv')