#47 Section3 分析ツール
機械学習を学ぶ理由、機械学習の分類を解説してきましたが、Section3では、使用する分析ツール『Pycaret(パイカレット)』について説明します。
→ スライドは、クリックすると拡大できます!
【アルゴリズムチートシート】
https://scikit-learn.org/stable/machine_learning_map.html
一方、Pycaretは、機械学習モデルの設計や構築のプロセスを自動化してくれる技術『AutoML(Automated Machine Learning)』をサポートしていますので、scikit-learn等の他の機械学習ライブラリでは数百行に及ぶコードを記述する必要があるところを、PyCaretでは数行に短縮!できます。
実は、Pycaretは、scikit-learnのラッパーでもあります。
『データサイエンスチュートリアル オフィシャルテキスト2』では、seabornを使いましたが、Pycaretはもう少し大掛かりなラッパーです。scikit-learn、XGBoost、LightGBM、CatBoost、spaCy、Optuna、Hyperopt、Ray等の様々なライブラリのラッパーとして機能します。
seabornは、matplotlibよりも簡単に、自動的に見栄えのするグラフを描いてくれましたが、それはPycaretでも同様です。
機械学習は、下記の枠で囲んだステップを経て最適なモデルで予測を行いますが、そのステップはほぼ一つの関数でコードを書くことができます。
PyCaretは、驚くほど、短いコード(大抵は1行)でコードを書くことができます。
これは、Pycaretの公式ドキュメントに記載があるように、Pycaretは『シチズンデータサイエンティスト』のために開発されたものだからです。Pycaretを使うのは、多くのコードを使った精密な分析が目的ではなく、広く用いられる手法で出た結果を解釈し、ビジネスで活用できる知見・洞察を得ることが目的です。
【公式ドキュメント】 https://pycaret.gitbook.io/docs
この新たな概念『シチズンデータサイエンティスト』は、営業、マーケティング、財務、人事などの部門で、先進的なデータ分析や予測・意思決定のための分析を活用して、意思決定や課題解決にデータを活かせる人材のことです。データサイエンスの専門家ではないものの、データ分析スキルを活かしてビジネスに貢献する人材です。さらには、データ活用の民主化を促し、業務効率化やデータ活用促進に貢献します。
すなわち、『4th STEP 機械学習』は、『Pycaret(パイカレット)』を用い、『シチズンデータサイエンティスト』のために、機械学習によるデータ分析をビジネスに活かす手法を解説するものです。
参考までに、日本においても、IPA(独立行政法人 情報処理推進機構)がデータサイエンティストを3つに分類していて、それぞれ下記の枠で囲んだスキルセットを身につけることを要求しています。その中で『データビジネスストラジスト』が『シチズンデータサイエンティスト』に近いものです。点線で囲った下記の国家資格が『データビジネスストラジスト』に必要な資格となります。
● ITストラテジスト試験
● 応用情報技術者試験
● プロジェクトマネージャ試験
まずは、Pycaretで機械学習の扉を開いてみましょう。次のSectionをお楽しみに!
コメント
コメントを投稿