投稿

Translate

コーディングを学ぶのは時間の無駄?

イメージ
AIがすべてのプログラミングコードを生成するようになるので「コーディングを学ぶのは時間の無駄」か? 最近、この問題に関するまとめニュースが、Gigazineに掲載されていました。 https://gigazine.net/news/20250331-dont-study-coding-replit-ceo/ Replitのアムジャド・マサドCEOは、「すべてのコードがAIによって生成されるようになるでしょう。私が想定している最適化のシナリオでは、AIエージェントはどんどん進化し続けると思います。そうなると、『コードを学ぶ価値はあるか』という問いの答えは、以前とは違って『いいえ』となります。コードの学習は時間の無駄になると思います」と述べたことが紹介されています。 ちなみに、Replitが開発したReplit Agentは、自然言語プロンプトからコードを自動生成できるクラウドベースのAIアシスタントです。 また、このブログ「データサイエンス チュートリアル」でも分析環境に Google Colab を使っていますが、AIアシスタントの機能がコラボで日々、増大しています。例えば… ● 新しいコードセルにうっすらと「AIで生成します」という表示がされ、そこをクリックすると、AIが次に行うべきコードを教えてくれる。 ● 「エラーの説明」ボタン→その内容は的確で、そしてコードの変更点も教えてくれます。 ある程度の用語を知っていれば、コラボがやってくれます。エラーも直してくれます。そしてその精度も高まってきているように感じます。 このような事実から、コードを学ぶ価値は必要無いという意見が出るのは、とてもよくわかります。 私も、20数年前にデータマイニングに身を投じた際、コードをゴリゴリ書いたのではなく、GUI(グラフィカル ユーザー インターフェース)で動く Visual Mining Studio (Rの元になったS言語を使っています!)を使っていました。 でも、新機能は開発が間に合わなくて、GUIを書く必要があり、メーカーの開発者にはずいぶんお世話になりました。人工知能学会でも、その開発者と一緒に 発表 させていただきました。 その後、2018年ごろに、副業で使うためにPythonを始めました。VMSはそれなりにライセンス料が高いので(当時、1台にインストールするのに300...

Supplement 2 DataFrameの比較

 forループで一気に作成したデータを縦型に変形し、本編で作成したデータ「naihuku」と同じ形に整形していきます。本編を思い出して、復習します。 その後、2つのDataFrameが同じものかどうか確認します。 ■ プログラムを 解説 したスライドをご覧ください! Supplement 2 DataFrameの比較 by @Cat_Taro ■ 自分のコラボのノートブックで確認してみましょう。下記の使用した全コードを参照してください。 all_files = glob.glob('/content/drive/MyDrive/Colab Notebooks/医療/データ2/*.csv') all_files list = [] for i in all_files: list.append(pd.read_csv(i)) df_all = pd.concat(list, ignore_index=True) df_all df_all2 = pd.melt(df_all , id_vars=['薬効分類', '薬効分類名称', '医薬品コード', '医薬品名' ,'薬価基準収載医薬品コード', '薬価', '後発品区分','年度','剤型_場所'] , value_vars=['01', '02', '03', '04', '05' , '06', '07', '08', '09', '10', '11','12', '13' , '14', '15', '16', '17','18', '19', ...

Supplement 1 Webスクレイピングの一括処理

「#33 Section 2 URLからデータを読み込む」、「#34 Section 3 データの修正・保存」に関しては、URLからひとつづつExcelファイルを読み込み・修正・保存していきましたが、 forループ を用いて一括で処理することができます。 レベルが高くなりますが、このような処理はよく遭遇しますので、チャレンジしていきましょう。 コードセルに多くの行のコードが並ぶと、ちょっとビビってしまいますね。 はじめから、このようなコードを書ける人はいないのでご安心を! みんな、先輩から教わったり、WEBやGitHubで見つけたコードをコピペして必要な修正を加えて、少しづつ慣れて、理解し、コードが描けるようになります。 見ただけで難しいと判断して放り出さず、解説の文章だけでも読んでみてください。 同じような処理 をすることがあったら思い出すことがあると思います。若干の修正を施し、「ctrl」+「enter」でコードが走った時には、爽快感とともに、あなたの実力もアップしているはずです。 ■ プログラムを 解説 したスライドをご覧ください! Supplement 1 Webスクレイピングの一括処理 by @Cat_Taro ■ 自分のコラボのノートブックで確認してみましょう。下記の使用した全コードを参照してください。 data = { "H26": [ ("https://www.mhlw.go.jp/file/06-Seisakujouhou-12400000-Hokenkyoku/0000139842.xlsx", "内服外来院内"), ("https://www.mhlw.go.jp/file/06-Seisakujouhou-12400000-Hokenkyoku/0000139844.xlsx", "内服外来院外"), ("https://www.mhlw.go.jp/file/06-Seisakujouhou-12400000-Hokenkyoku/0000139846.xlsx", "内服入院"), ], ……………...

#42 後発品比率の都道府県別年度推移

イメージ
いよいよ3rd STEPの最終回です。 前のSectionでは、令和2年度の都道府県別の薬剤費総額と対10万人当たりの薬剤費のグラフを同一画面で描画しました。日本では、医療費削減のために後発品(ジェネリック医薬品とも言います)の使用が推奨されています。そこで、薬剤費をドリルダウンして、後発品とその他に分け、金額ベースの後発品比率を求めていきます。 特に新しいプログラムはないのですが、今まで出てきたプログラムを思い出して復習していきましょう。 ■ まずは、下記の 動画 (8分18秒)をご覧ください。 ■ リンク先等を見たり、自分のペースで見たい方は、 下記の スライド を参照してください。 #42 後発品比率の都道府県別年度推移 by @Cat_Taro ★参考資料 ■ オープンデータを使った論文 https://icer.tokyo/materials/ndb_opendata_replication/ ■ 一般社団法人日本薬剤疫学会 https://www.jspe.jp/

#41 y軸が2つのグラフを描く

イメージ
今回は、y軸が2つのグラフを描くことにより、2つの集計結果の違いを一目で分かるようにします。 Pythonにおけるグラフ描画のライブラリライブラリ「matplotlib」を使うのですが、設定が細かいので上級編となります。 こんな感じで高度なグラフを描けるんだと頭の片隅にでも入れておいていただければ十分です。普段の分析業務をこなすには、seabornで事足りるはずです。 今回使用するライブラリ「matplotlib」には、下記の2つの流儀があります。 1.「 Pyplotインターフェース 」 MATLAB (マトラボ)というデータ解析やアルゴリズム開発、モデルの作成などに使用するプログラミング言語の機能をpythonでも使えるように導入された機能。簡単にプログラムを書くことができるが、グラフ描画の自由度は小さいプログラム。 2. オブジェクト指向インターフェース 何を操作の対象にするか明示的に指定する方式。「Pyplotインターフェース」で図を作っても、いざ細かい調整をしようとすると、結局オブジェクト指向インターフェースのやり方に従うことになりますので、ここでは、こちらを使います。 ※ ネット上には、matplotlibの「Pyplotインターフェース」で書かれたものと「オブジェクト指向インターフェース」で書かれたコードの二つが混在しています。コードを読む時には、気を付けましょう! ■ まずは、下記の 動画 (11分14秒)をご覧ください。 ■ リンク先等を見たり、自分のペースで見たい方は、 下記の スライド を参照してください。 #41 y軸が2つのグラフを描く by @Cat_Taro

#40 補足 オープンデータをさらに学びたい方へ

イメージ
統計オープンデータを活用したデータ分析の手法を学べる講座が、令和7年1月にリニューアルします。「#40 都道府県別人口データを作成」で「オープンデータ」や「e-stat」に興味を持ち、さらに知識を深めたい方々は、下記のページから受講登録を行ってください。 誰でも無料で受けられるウェブサービス「gacco」のコンテンツです! 総務省統計局「誰でも使える統計オープンデータ」講座 内容は下記のとおりです。 第1週目 e-Statの統計データを活用したデータ分析の事例、基本的な活用方法を学ぶ 第2週目 国の経済の規模をはかるGDP統計と関連する統計の見方を学ぶ 第3週目 人口統計・労働関連統計を中心に景気判断に用いられる統計の見方を学ぶ 第4週目 統計データと地図を組み合わせた活用方法等を学ぶ 概要は、下記の動画を参照ください。

#40 都道府県別人口データを作成

イメージ
 今回は、政府統計の総合窓口「e-stat」から、令和2年国勢調査の都道府県別人口を探して、それを基に都道府県毎の人口データを作っていきます。e-statには、様々なオープンデータが保管されていますので、日々の業務で使うことがこれから出てくると思います。 ■ 政府統計の総合窓口「e-Stat」 https://www.e-stat.go.jp/ ■ 令和2年度(2020年)の都道府県別人口(国勢調査) https://www.e-stat.go.jp/stat-search/file-download?statInfId=000032142402&fileKind=0 また、ブーリアンインデックスを用いたデータの抽出や、各要素から任意の文字を抽出する方法を用い、都道府県別人口データを作成します。使用するプログラムは、下記になります。 ● データ名[“列名”].str.contains(“文字列”) ● データ名[データ名[“列名”].str.contains(“文字列”)] ● データ名["列名"].str[数字1:数字2] ■ まずは、下記の 動画 (11分19秒)をご覧ください。 ■ リンク先等を見たり、自分のペースで見たい方は、 下記のスライドを参照してください。 #40 都道府県別人口データを作成 by @Cat_Taro

#39 マスタを使って新たな列を追加

イメージ
今回は、私、小次郎が作成した都道府県別番号マスタを使って、都道府県別番号を都道府県名に変換していきます。 元データとマスタのように、2つのデータを共通な列名で結合する場合、「 merge ( マージ )」を使って、下記のようにプログラムを書きます。 ●pd.merge(データ1, データ2, on=“列名”, how=‘結合方法’) 「データ1」を「left」、 「データ2」を「right」と呼び、「on=」の次の列名には「left」と「right」に共通な列名を指定します。この共通な列名を「キー」と呼びます。 また、マージによる結合の仕方には、「キー」以外の列の要素(行)に関して、それぞれの行をどのように残すかにより次の4種類に分類できます。 ① inner join( 内部結合)→これはデフォルトとなります。 ② left join (左結合) ③ right join (右結合) ④ outer join (外部結合) ■ まずは、下記の 動画 (8分30秒)をご覧ください。 ■ リンク先等を見たり、自分のペースで見たい方は、 下記のスライドを参照してください。 #39 マスタを使って新たな列を追加 by @Cat_Taro

#38 分析の準備

イメージ
さて、NDBデータから作成した分析用の「naihuku.csv」を用いて、いよいよデータを分析していきます。 今回は、基礎編の書籍化などで、しばらく間が空いてしまいましたので、準備運動代わりに分析の準備を下記の段取りにて行います。 1.分析用ノートブックの作成 2.データの読み込み ここでは、列名「薬効分類」、列名「都道府県番号」の小数点以下をカットします。分析上は問題ないのですが、すっきりしたデータに直します。 3.データ型の確認 4.「医薬品名」ごとの薬価を示す列の追加 ■ まずは、下記の 動画 (4分37秒)をご覧ください。 ■ リンク先等を見たり、自分のペースで見たい方は、 下記のスライドを参照してください。 #38 分析の準備 by @Cat_Taro

データサイエンス関連の資格 後編

イメージ
前偏に引き続いて、データサイエンス関連の資格について考えていきます。 IT系には、国家資格、民間資格を合わせると非常に多くの資格が存在しますが、下記の3方向から資格を分類してみました。 ① Pythonの資格 ② データサイエンスの資格 (1)ビジネス寄り (2)エンジニア寄り ③ プログラミング全般の資格 (1)国家資格 (2)民間資格 また、このチュートリアルの位置づけも考えてみましたので、今後のさらなるスキルアップの学習計画立案に参考にしてみてください。 ************ 参考資料 ************ ★参照リンク 1.データサイエンス チュートリアル/基礎編 https://datascience.official.ec/ 2.Python 3 エンジニア認定データ分析試験 https://www.pythonic-exam.com/exam/analyist 3.Python 3 エンジニア認定データ分析実践試験 https://www.pythonic-exam.com/archives/news/cpda-2 4.データサイエンティスト検定 リテラシーレhttps://www.datascientist.or.jp/dscertification/what/ 5.G検定 https://www.jdla.org/certificate/general/ 6.データサイエンス数学ストラテジスト(中級)/データサイエンス数学ストラテジスト(上級) https://www.su-gaku.net/math-ds/ 7.統計検定データサイエンス基礎 https://www.toukei-kentei.jp/exam/grade11/ 8.統計検定データサイエンス発展 https://www.toukei-kentei.jp/exam/grade12/ 9.統計検定データサイエンスエキスパート https://www.toukei-kentei.jp/exam/grade13/ 10.E資格 https://www.jdla.org/certificate/engineer/ 11.ITパスポート試験 https://www.ipa.go.jp/shiken/kubun/ip.html 12.情報セキュリティマネジメント試験 https://www...