Translate

#65 Section 20 クラスタリング(1)教材の用意&PyCaretのインストール/インポート

 ここからは、機械学習の第三弾として、教師なし学習の『クラスタリング』を体験していきましょう。



クラスタリングの主な目的は、下記のように似た性質を持つデータを自動的にグループ分けすることです。

● 顧客の年齢、収入、購買行動、支出などに基づいて、共通のニーズを持つ顧客グループ(クラスター)を抽出し、グループごとに最適なマーケティング戦略を立てる際に活用
●他のどのクラスターにも属さない、孤立したデータポイント(外れ値)を特定することで、不正取引や機械の異常などを発見
●大量のデータの中から、主要なパターンや傾向を理解するための初期分析として利用

今回もPyCaretの公式チュートリアルの一部を教材としていきます。




1.PyCaretのホームページ 

まずは、教材の準備をしていきます。

PyCaretのホームページ https://pycaret.gitbook.io/docs の左側メニュー『Tutorials』をクリックします。PyCaretの公式ホームページ、ちょっと変わりました。

→ スライドは、クリックすると拡大できます!




『Tutorials』にある『Clustering』の前半の部分『Quick start』を今回の教材にします。

Clustering』は、②教師なし学習の一種で、特徴が近い(似ている/距離が近い)データを集めて集団に分ける分析手法です。日本語で、『クラスタリング』と言います。




『Colab』をクリックすると、『Colab』の『Tutorial - Regression.ipynb』という名前のノートブックが現れます。この状態では、まだGoogleドライブに保存されているわけではありませんので、『ドライブにコピー』をクリックします。

これで、教材の準備は完了です。




2.PyCaretのインストール/インポート

この教材には、既にコードが書いてありますから、それを見ていきながら、何をやっているのか理解していきましょう!

Colabには、PyCaretがインストールされていませんので、先ずはPyCaretをインストールしましょう。


また、通常の『!pip install paycaret』では、すべてのものをインストールすることはできません。 paycaretに続けて[full]を書くとフルバージョンをインストールすることができます。

その後、実行します。

結構なパーツが含まれていますから、数分待つことになります...




ColabでPyCaretをインポートすると、数分経過してから下記のように『セッションを再起動する』とのアラームが出てきます。Colabは最新に近いパーツで動いていますが、PyCaretはその最新のパーツに対応していないためです。

でも、ご安心を! 『セッションを再起動する』をクリックして、再起動すれば、PyCaretは問題なく稼働します。

PyCaretは、非常に多くのパーツから成り立っているため、分析環境を構築するために多くの努力が必要とされます。これが、いまいち普及が進まない原因です。解説本も少ない!

通常は、『python3 virtualenv』、『Anaconda』等を使って、仮想環境を作ったり、コンテナーというアプリケーションとその実行環境をまとめる技術を使います(ここでは割愛します)。




PyCaretをインポートが完了し、稼働しているかどうか確かめるために、PyCaretのバージョンを表示させましょう。

pycaret.__version__

PyCaretのバージョンは、3.3.2と表示されています。バージョンあが表示されていれば、ちゃんとインストールされています。




3.分析データを読み込む

次に分析するデータを読み込みます。

PyCaretには、年齢、収入、支出スコア、貯蓄(額)が含まれている『jewellery』というデータが入っています。それを呼び出し、得られたデータを『data』と宣言しています。




4.データ『insurance』の詳細

このデータ『jewellery』は、一般的に顧客セグメンテーションの例として使用されます。例えば、顧客を「年齢」「収入」「支出スコア」「貯蓄」といった特性に基づいてグループ(クラスター)に分類する際などに利用されます。

*支出スコア(SpendingScore):スコアの正確な算出式は、この公開サンプルデータセットの提供元(PyCaret)からは明示されていません。 しかし、一般的に企業が顧客の「支出スコア」を算出する際は、「購入金額の合計」、「購入頻度」、「購入頻度」、「購入商品の多様性」を組み合わせて決定されます。 ここでは、「この顧客がどれだけ積極的に、頻繁に、多くの金額を費やしているか」を簡潔に表す指標であると理解して、分析を進めていきましょう。
























コメント