機械学習におけるデータマイニングとは? ツールや活用例を紹介

2020年06月15日

機械学習におけるデータマイニングとは

データマイニングとは、統計学、パターン認識、AIや機械学習等のデータ解析を、ビッグデータに網羅的に適用することで情報を取り出す技術を意味します。代表的に、テキストデータを対象するものをテキストマイニング、その中でもWebサイトを対象にしたものをwebマイニングといいます。

データマイニングを活用することで、非構造化データを分析するための下準備や、データ分析の際に混乱の基にとなるノイズを除去するなどのメリットが得られます。

 

機械学習におけるデータマイニング手法

まず、機械学習におけるデータマイニングの主な手法を紹介していきます。

パターンマイニング: パターンマイニングとは、データの中からパターン(組み合わせ的規則)の中から重要なもののみを網羅的に抽出する、データマイニングの手法です。以下に紹介していく、他の手法と組み合わせることで、発見されたパターンに含まれている偽陽性の割合を適切に制御することができます。

頻出パターンマイニング: 頻出パターンマイニングとは、データの中から一定頻度以上に会わられるパタン―を抽出する手法で、クラスタリングと並び、代表的な教師なし学習の手法です。頻出パターン抽出(frequent pattern extraction)などとも呼ぶ。

クラスタリング: 与えられたデータ群をいくつかの集まり(クラスタ)に分けることで、データの本質的な構造を浮かび上がらせる手法。事前にクラスを与えるかどうかで、以下に紹介するクラス分類と異なります。

クラス分類: あらかじめ設定したカテゴリ(クラス)にデータを割り振る手法。

回帰分析: 出力値の予測をするために使用される手法です。最も基本的な回帰分析は「単回帰分析」であり、単一の特徴量単一の特徴量𝑥で出力値𝑦を予測する方法です。特徴量が多変量になった回帰分析には「重回帰分析」を使用します。この場合、相関の強い説明変数を同時に2つ以上用いると予測精度が悪化する多重共線性に注意が必要です。また、データの関係性を曲線で表す非戦回帰モデルは、株価データなど周期性のあるものに適用されます。

 

機械学習向けデータマイニングツール

Lionbridge AI: データ作成やアノテーションのサービスを提供し、機械学習の研究開発を支援しております。既存データをお持ちでない方には、データ収集のサポートから入ります。また、データマイニングをスムーズに行うために、前処理やアノテーションサービスも提供しております。自社開発ツールは品質確認やプロジェクト管理など、プロジェクトにスムーズに取り組むために、多様な機能が揃っています。無料お見積り・お問い合わせはこちらから。

LionbridgeAIのデータマイニングツール

Qlik Sense: 連想アナリティクスエンジン、AI技術、クラウドプラットフォームが組み込まれたデータマイニングプラットフォーム。ITリテラシーを備えた従業員の育成にも繋がります。

Magic Insight: テキストマイニングのIBM Watson Explorerを利用するために必要な環境のすべてをプラットフォームとしてご提供するサービスです。IBM Watson Explorerの持つ2つの構成要素(コンポーネント)をそれぞれASP/SaaS型で提供。

 

機械学習向けデータマイニングソフト

NTTデータ数理システム: パッケージソフトの提供のみならず、データの分析技法のコンサルティング、さらには各業態に合わせたソフトウエアのカスタマイズ、トータルシステムの受託開発まで対応可能。

OpenCV (Open source computer vision library): Intel社によるコンピュータビジョンライブラリ。画像や動画を処理するのに必要な、さまざま機能が実装されており、BSDライセンスで配布されていることから学術用途だけでなく商用目的でも利用できます。加えて、マルチプラットフォーム対応されているため、幅広い場面で利用されていることが特徴です。OpenCVとNumPyの画像座標系について詳しくは、こちらの記事もご覧ください。

RapidMiner: 機械学習、データマイニング、テキストマイニング、特徴選択、予測分析、経営分析などを扱うソフトウェア。データマイニングや機械学習分野において、データ変換、データ処理、可視化、モデリングの作成・評価・展開に活用できます。

 

機械学習におけるデータマイニングの例

データマイニングは、製造、販売、医療など、多くの業界で活用されます。例えば、小売業では既存の顧客データベースにデータマイニングを行い、キャンペーンの最適化や購買予測の精度向上などに役立ちます。教育業界では、データマイニングで生徒の成績を予測し、学習過程の内容を最適化しすることに活用できます。ビッグデータの活用事例について詳しくは、こちらの記事もご一読ください: ビジネスにおける、AI(人工知能)活用の最新事例を21選紹介

教師データの作成やアノテーションサービスを提供し、AIの研究開発を支援いたします。

メディア掲載結果

    AI・機械学習の最新情報をお届けします!

    Lionbridge AIのブログで紹介している事例記事やトレンドニュースといったビジネスに役立つ情報はもちろん、オープンデータセット集なども合わせてメール配信しております。