投稿

データサイエンス関連の資格 後編

イメージ
前偏に引き続いて、データサイエンス関連の資格について考えていきます。 IT系には、国家資格、民間資格を合わせると非常に多くの資格が存在しますが、下記の3方向から資格を分類してみました。 ① Pythonの資格 ② データサイエンスの資格 (1)ビジネス寄り (2)エンジニア寄り ③ プログラミング全般の資格 (1)国家資格 (2)民間資格 また、このチュートリアルの位置づけも考えてみましたので、今後のさらなるスキルアップの学習計画立案に参考にしてみてください。 ************ 参考資料 ************ ★参照リンク 1.データサイエンス チュートリアル/基礎編 https://datascience.official.ec/ 2.Python 3 エンジニア認定データ分析試験 https://www.pythonic-exam.com/exam/analyist 3.Python 3 エンジニア認定データ分析実践試験 https://www.pythonic-exam.com/archives/news/cpda-2 4.データサイエンティスト検定 リテラシーレhttps://www.datascientist.or.jp/dscertification/what/ 5.G検定 https://www.jdla.org/certificate/general/ 6.データサイエンス数学ストラテジスト(中級)/データサイエンス数学ストラテジスト(上級) https://www.su-gaku.net/math-ds/ 7.統計検定データサイエンス基礎 https://www.toukei-kentei.jp/exam/grade11/ 8.統計検定データサイエンス発展 https://www.toukei-kentei.jp/exam/grade12/ 9.統計検定データサイエンスエキスパート https://www.toukei-kentei.jp/exam/grade13/ 10.E資格 https://www.jdla.org/certificate/engineer/ 11.ITパスポート試験 https://www.ipa.go.jp/shiken/kubun/ip.html 12.情報セキュリティマネジメント試験 https://www

データサイエンス関連の資格_前編

イメージ
こんにちは、猫のタローです。 今日は、データサイエンス関連の 資格 について考えていきましょう。 今まで、ブログや動画で続けてきた「データサイエンス チュートリアル/基礎編」は、知識がまったくなくても、見よう見まねで、基本的なプログラムを書いてみて、その楽しさがわかったら、本格的な学習に進むきっかけになればと始めたものです。 しかし、テキストを配布してしばらくたつと、このチュートリアルを体験してみて、本格的にデータサイエンスの学習に進もうと決意した方々が、 次は何を目指すべきか 、指針が必要だと感じました。 そこで、データサイエンス関連の資格にはどのようなものがあり、その中で、このチュートリアルの位置づけはどのようなものかを解説することにしました。 データサイエンティストになるためには、資格だけではなく、実践経験がとても重要ですが、 学習の指針 、 実務経験のチャンスを得る ためには、資格の取得が必須となることもあります。本格的にデータサイエンスの学習に進もうと決意した方々は、参考にしてください。 前編では、データサイエンティストの定義、スキル、「データサイエンス チュートリアル/基礎編」で身に付くことを改めて振り返ります。 ************ ■ まずは、下記の 動画 (4分18秒)をご覧ください。 リンクはこちら↓ データサイエンティスト協会が定義しているスキル  ■ スキルチェックリスト ver.5  ■ タスクリスト ver.4 データサイエンス チュートリアル/基礎編 ■ リンク先等を見たり、自分のペースで見たい方は、 下記のスライドを参照してください。 データサイエンス関連資格_前編 by @Cat_Taro

このブログが書籍になりました! 第2弾!

『1st Step ビッグデータの読み込みとデータの確認』で作成した「id_pos4」、いわゆる「きれいなデータ」を用いて、データの見える化、およびレポーティング用(報告書・会議用資料)の集計を行っていきます。 グラフは、「seaborn」等を用いて、インパクトのあるグラフを少ないコードで描いていきます。グラフによるデータの見える化で、より深い洞察が得られることと思います。 グラフにするためのデータの前処理やグラフの不具合についても、よくある間違い実例で解説しています。 →  購入はこちら

このブログが書籍になりました! 第1弾!

データサイエンスに興味を持ってはいるが、データサイエンスに本気でダイブしようかどうか迷っている方々、そのような方々に分析を体験してみる機会を提供するために、この ブログ「データサイエンス チュートリアル」、およびYoutube「 DataScience_for_everyone 」を始めました。 知識がまったくなくても、見よう見まねで、基本的なプログラムを書いてみて、その楽しさがわかったら、本格的な学習に進むきっかけになればと思ったのが始めた動機です。 うれしいことに、読者や視聴者の中には、初めから、基本的なプログラムをしっかり身に付けたいという要望を持つ方も現れました。 そこで、ブログと動画をまとめたテキストを出版することにしました。 第1弾は、『1st Step ビッグデータの読み込みとデータの確認』です。  引用URLやページ内のリンクを活かすためにPDFで作成しました。 → 購入はこちら ブログや動画を、スキマ時間や通勤時間にスマホで見聞きし、週末など1時間程度時間が取れる時に、このテキストを参考にして、実際にコラボを起動してプログラムを書いてみる。そんな使い方を想定しています。 慣れてきたら、このテキストにある参考資料を読んで、このテキストのプログラムをちょっと変えてみて、コラボで動くかどうか確認してみる事も、スキルを身に付けるためにとても有効です。自分なりのコラボ・ノートブックを作りましょう。 もちろん、初めからこのテキストに取り組んでも構いません。 どのような使い方であれ、このテキストが最初の一歩になり、あなたがデータサイエンスを身に付け、それがリスキリングにつながり、より充実した人生を送れるようになることを願ってやみません。

#37 Interactive Table

イメージ
まずは、前回、縦型(long型)に変換したデータをよく見てみましょう。列名「個数」末尾の方に、「-」(ハイフン)が存在します。 これは、データが存在しないことを表しますが、Pythonはその意味を理解しません。欠損値「NaN」と変換しておきましょう。#30「Section 28 ピボットテーブル(2)」に出てきた77を思い出してください。 ● データを縦型に変換する    77  データ名.replace(“元の要素”, “新しい要素”) また、「“新しい要素”」を 欠損値 に置換する場合は、「 np.nan 」と記載します。この場合、「” ”」は、要りません。 さて、コラボには、pandasデータフレームをインタラクティブなディスプレイに変換する拡張機能「 Interactive Table 」があります。このディスプレイは、フィルタリング、並べ替え、探索などを行うことができます。 データを保存する前に、「Interactive Table」を体験していきましょう。 最後はデータを保存します。 ● データを保存する    ㉘ データ名.to_csv(‘保存するフォルダーのパス/新データ名.csv’) ************ ■ まずは、下記の 動画 (5分5秒)をご覧ください。 ■ 次にプログラムの 解説 を自分のペースで読み、コラボでプログラムを書いてみましょう。 下記のスライドを参照してください。 #37 Interactive Table by @Cat_Taro ************ ■ このセクションのプログラムは下記のようになります。    実際に、コピペして コラボ で試してみましょう! df_all4.replace("-", np.nan, inplace=True) df_all4 df_all4.query('医薬品名 == ["タケキャブ錠20mg"]') df_all4.to_csv('/content/drive/MyDrive/Colab Notebooks/医療/naihuku.csv')

#36 縦型(long型)に変換

イメージ
前回結合したデータを「 melt 」使って、データを変数が一列にまとめられている縦型にしていきます。これにより、集計がしやすくなります。 Excelデータは人間が見やすいように横型(wide型)になっていることが多いのですが、 集計する際は、縦型(long型)にすることが必要 です。これは、変数が一列にまとめられているからです。 この縦変換には、「melt」を用います。 ● データを縦型に変換する     89 pandas.melt( データ名                                 , id_vars=固定される列名                                 , value_vars=meltする識別変数                                 , var_name=meltする識別変数の名前                                 , value_name=meltする識別変数の値の名前 ) ● 不要な列を削除する     90 データ名.drop(“列名”, axis=1) ************ ■ まずは、下記の 動画 (4分52秒)をご覧ください。 ■ 次にプログラムの 解説 を自分のペースで読み、コラボでプログラムを書いてみましょう。 下記のスライドを参照してください。 #36 縦型(long型)に変換 by @Cat_Taro ************ ★参考資料 ■ 【pandas】melt, pivot:縦横変換【データフレーム処理】 by shunさんの「データサイエンスの道標」 https://datasciencemore.com/python-pandas-melt-pivot/ ************ ■ このセクションのプログラムは下記のようになります。    実際に、コピペして コラボ で試してみましょう! df_all3 = df_all.drop(["Unnamed: 0", "単位"], axis=1) df_all3 df_all4 = pd.melt(df_all , id_vars=['薬効分類', 

#35 データの結合

イメージ
前回取り込んだ24個のExcelファイルを、年度ごとの推移を分析するために「 concat 」を使って、結合していきます。 その過程で、 ワイルドカード 、 forループ 、 リスト内包表記 という便利な機能も使っていきますので、しっかりと身に付けていきましょう。 ● 特定のファイルのパス名とファイル名を取得する     85. glob.glob(‘ファイルのパス/ファイル名.ファイル形式’) ● データを単純に結合する     86. pd.concat([データ名1, データ名2, …],  ignore_index=True) ● 繰返し処理する      87. for イテレーター in イテラブルオブジェクト:                   処理1                   処理2                   ・・・ ● 末尾(最後)に要素を追加する      88. リスト名.append(引数)  ● リスト内包表記     pd.concat((pd.read_csv(i) for i in all_files), ignore_index=True) ************ ■ まずは、下記の 動画 (8分24秒)をご覧ください。 ■ 次にプログラムの 解説 を自分のペースで読みましょう。 下記のスライドを参照してください。 #35 データの結合 by @Cat_Taro ************ ★参考資料 ■ concatのイメージ by shunさんの「データサイエンスの道標」 https://datasciencemore.com/python-pandas-concat/ ■ [解決!Python]内包表記でリストを作成するには https://atmarkit.itmedia.co.jp/ait/articles/2106/29/news021.html ************ ■ このセクションのプログラムは下記のようになります。    実際に、コピペして コラボ で試してみましょう! import glob all_files = glob.glob('/content/drive/MyDrive/Colab Notebooks/医療/データ/*.csv') all_