機械学習における主成分分析(PCA)とは? やり方や例題を紹介

2020年06月30日

主成分分析(PCA)とは

データセットの次元が多いと、機械学習において計算コストが高くなってしまい、データを可視化することが難しくなってしまいます。主成分分析(principal correlation analysis; PCA)とは、機械学習アルゴリズムの1つで、このような課題を解決してくれます。特徴量を抽出することによって、データセット内の次元削減を行う方法です。

3次元以下に次元削減を行えば、データセットの様子を可視化することができます。いろいろな主成分同士のプロットを見て、それぞれの主成分の角度を見ることで、データセットがどのような方向に分布しているのかが分かります。また、主成分を調べれば、隠し文の意味を推測することもできます。

さらに、主成分分析によって、データセットの中で外れ値を探すこともできます。主成分分析をした後に主成分のプロットを見たときに、離れているサンプルは、主成分分析前のサンプル同士も離れています。

主成分分析は、正準相関分析 (canonical correlation analysis; CCA) という、二つのデータセット間の相互共分散に基いて座標系を定める手法とも関連されいます。

 

主成分分析を実行するデータセット 

主成分分析を実行するデータセットの例をいくつか上げていきます。主成分分析を行う前には、必ずデータの前処理を行いましょう。

アメダス: アメダス(AMeDAS)とは「Automated Meteorological Data Acquisition System」の略で、「地域気象観測システム」といいます。地域技との降水量、風向、風速、気温、日照時間などのデータが公開されています。アメダスの観測データを用いた主成分分析の具体例は、こちらを御覧ください。

The Complete Pokemon Dataset, PokemonGO: 800種類のポケモンの身長、体重、CP、HP、などを含むデータセット。主成分分析を用いてポケモンの属性分布を可視化された具体例は、こちらを御覧ください。

CAESER: 4,600人の欧米人の身長と体重を含むデータセット。例えば、身長と体重をBMIと表し、2次元から1次元の次元削減するなどの分析ができます。

XLSTAT: 主成分分析のチュートリアルです。データセットは、米国国勢調査局からのもので、2000年と2001年の間の51州の人口の変化を記述しています。元のデータ集合は、分析の焦点である2001年のデータとの1000人の住民ごとの比率に変形されています。

 

LionbridgeのAI学習データサービス

当社はAI学習データの収集、アノテーション、検証などのサービスを提供しております。どのようなAI開発プロジェクトでもしっかりと支援いたします。世界の各タイムゾーンを渡る、100万人のコントリビューターが登録されているので、大規模な機械学習プロジェクトも素早く仕上げることができます。無料トライアルやご相談は、こちらからお問い合わせください。

AI向け教師データを作成し、研究開発をサポートいたします。

メディア掲載結果

    AI・機械学習の最新情報をお届けします!

    Lionbridge AIのブログで紹介している事例記事やトレンドニュースといったビジネスに役立つ情報はもちろん、オープンデータセット集なども合わせてメール配信しております。