【9個掲載】機械学習やディープラーニングに使える、異常検知データセット

2020年06月26日

異常検知とは

異常検知とは、過去の故障情報や異常に関連するデータセットにたいし、他のデータパターンや標準パターンとは異なるものを洗い出し、識別する技術を指します。結果を機械学習やディープラーニングしていくことで、故障・エラーが出る可能性のあるものを予測するものです。

また異常検知は、AI(人工知能)を使い、ビッグデータを機械学習モデルに読み込ませ相互の共通点や相違点などを比較分析し、パターンを学習させることで実用的な精度にまで向上させていきます。

精度が高まることで、サービスへの影響を最小限にするだけでなく、対応経費のコストカットも見込めます。

 

異常検知の使用シーン

主に、Webサービスの不正アクセスや金融機関の不正利用などを防止する目的に利用されたり、工場の稼働データの中から異常値を検出して、不具合や故障を検知する目的で使用されたりします。大量データの収集・蓄積が可能で、機械学習やディープラーニングによる分析が実施しやすい環境下で利用されています。

製造業には、異常検知技術を活用するポテンシャルが大きいですが、不良品が元々少ないので、機械に不良品に関するデータを学習させることが難しい状況にあります。良品・不良品の仕分けなどを人間が実施していることが多いです。

例えば、キューピー株式会社/株式会社ブレインパッドは、食品製造ラインにおける異物混入や不良品を検知するために、製造ラインに流れる1cm角のじゃがいもをコンベア上に並べ、カメラで撮影し、画像データを解析しました。良品・不良品を識別する分類アプローチをとらず、良品のみの特徴を学習し、それと異なるものを判定する異常検知技術を採用しました。他の製造業でも、オートエンコーダなどを使い、良品データのみから特徴を抽出し、その特徴との差分を利用することで、異常検知を実施する手法が使われています。

以下に、主な異常検知の使用シーンをまとめました。

データの種類

使用シーン

ベクトルデータ(多次元ベクトルデータ)

  • 外れ値検知
  • ノイズ除去

制御・監視(車制御センサー、工場監視)  

  • 異常動作検知
  • 故障検知
  • 不具合検知

ログ(クレジットカード履歴、株等の売買履歴、ヘルスケア)

  • クレジットカード不正利用検知
  • インサイダー検知
  • 早期発見

ネットワーク(アクセスログ)

  • DDoS等の攻撃検知
  • 障害検知

画像(製品・商品、建造物の外観、監視カメラ)

  • 製品、商品の欠陥検知
  • 建物劣化検知
  • 不審者、不審物の検知

音声(構造物の反響音)

  • 打音検査での異常検知

 

異常検知の手法

異常検知には、ルールの学習、教師データなし、教師データあり、回帰の4つの手法があります。

  • ルールベース: 事前に定義した正常時のデータにおけるルールを決めそれを超えた場合に異常とみなします。
  • 教師あり学習: 過去のデータからパターンを見い出し新たなデータが異常な事象に当てはまる度合いを確率として出力します
  • 教師なし学習: データそのものが持つ構造・特徴を分析し、似たデータ同士にグループ化して分類する手法です
  • 回帰: 正常時のデータから回帰式のモデルを構築しモデルから逸脱したものを異常値かどうかの判定を行います。

 

異常検知のデータセット

こちらでは、異常検知の公開データセットを9件紹介していきます。

MVTec 異常検知データセット: 15カテゴリーに別れ、工業製品や農作物、各ドメインごとの欠陥、画像内のさまざまな配置、さらに欠陥領域のセグメンテーションデータもアノテーションに含まれている異常検知データセットです。

MIMII Dataset: Sound Dataset for Malfunctioning Industrial Machine Investigation and Inspection: 工場機械の異常検知を、音から行うためのデータセットがMIMIIです。バルブやポンプ、ファンといった工場内の機械の音が収録されている。

異常も、漏れやこすれなど様々なタイプをそろえている。

  • バルブ、ポンプ、ファン、スライドレールの4種類の産業機械から発生する音を収録されています。
  • 各機種のデータには、通常音(5000秒~10000秒)と異常音(約1000秒)が含まれてます

 

Numenta Anomaly Benchmark : Numenta Anomaly Benchmark v1.1を構成するデータとスクリプトが含まれています。ストリーミング、リアルタイムアプリケーションにおける異常検出のためのアルゴリズムを評価するためのベンチマークです。50以上のラベル付けされた実世界および人工的な時系列データファイルと、リアルタイムアプリケーション用に設計された新しいスコアリングメカニズムで構成されています。58個の時系列データファイルから構成されています。

 

異常検知参考資料: 一般的なデータ分布から逸脱した外れ値を特定することを目的とした、刺激的でありながらも挑戦的な分野です。外れ値検出は、クレジットカード詐欺分析、ネットワーク侵入検出、機械装置の欠陥検出など、多くの分野で重要であることが証明されています。このリポジトリでは、以下のものを収集しています。

  • 書籍・学術論文
  • オンラインコースとビデオ
  • 外れ値データセット
  • オープンソースおよび商用ライブラリ/ツールキット
  • キーコンファレンス、ジャーナル

 

UCSD 異常検知データセット: UCSD異常検知データセットは、歩行者の歩道を見下ろす高所に設置された固定カメラで取得されました。歩道の群衆密度は、まばらなものから非常に混雑しているものまで様々です。通常の設定では、ビデオには歩行者のみが含まれています。異常なイベントは、以下のいずれかに起因しています。

  • 歩行者以外の物体が歩道を循環している
  • 異常な歩行者運動パターン

 

Anomalous Behavior Dataset: ビデオにおける異常行動検出のためのデータセットを提供しています。このデータセットには、照明効果、シーンクラッタ、可変ターゲット出現、急激な動き、カメラのジッターなど、さまざまな困難なシナリオを描写した8つの画像シーケンスが含まれています。すべてのシーケンスは、ビデオのトレーニング部分と比較して異常な挙動を識別するために手動で構築されたグランドトゥルースを使用することができます。また、グラウンドトゥルースの構築とその後の評価のためのソフトウェアも提供されています。Traffic-Train, Belleview, Subway-Exitなどのカテゴリで用意されてます。

 

VIRAT Video Dataset: VIRATビデオデータセットは、既存の行動認識データセットよりも、解像度、背景クラッタ、シーンの多様性、人間の活動/イベントカテゴリなどの点で、ビデオ監視領域のために現実的で、自然で、挑戦的なものになるように設計されています。コンピュータビジョンコミュニティのベンチマークデータセットとなっています。

  • 多様なタイプの人間の行動と人間と車の相互作用が含まれており、行動クラスごとに多くの例(30以上)が含まれています。
  • 監視ビデオは、広い範囲で空間・時間で計測可能です。このデータセットは、フレームレートが2~30Hz、人物の高さが10~200ピクセルの範囲をキャプチャするように設計されています。

 

ODDS 異常検知データセット: ODDSでは(利用可能な場合には)基底真理を持つ異常検出データセットの大規模なコレクションへのアクセスをオープンに提供しています。私たちの焦点は、異なるドメインからのデータセットを提供し、研究コミュニティのための単一のプラットフォームの下でそれらを提示することです。そのため、ODDSライブラリ内の異なるテーブルに、データセットの種類に基づいてデータセットを配置しています。

  • 多次元の点データセット
  • イベント検出のための時系列グラフデータセット
  • 敵対/攻撃シナリオとセキュリティの異常検知データセット

 

異常検知メタ分析ベンチマーク: 異常検出のメタ分析を行っています。文献を通して異常検出アルゴリズムをベンチマークし、重要と考えるいくつかの次元にわたった大規模なデータセットを作成しています。

  • ポイントの難易度
  • 異常の相対的な頻度
  • 異常のクラスタ化度
  • 特徴の妥当性

 

異常検知データセットをお探しでしょうか?

お探しの異常検知データセットが見つからない場合、当社が作成いたします。100万人の認定コントリビューターが登録されており、20年に渡るAIプロジェクトの実績を持ちます。教師データの作成やアノテーションでお手伝いできることの詳細につきましては、お気軽にお問い合わせください。

AI開発に肝心な学習データを提供いたします

メディア掲載結果

AI・機械学習の最新情報を配信中

Lionbridge AIのブログで紹介している事例記事やトレンドニュースといったビジネスに役立つ情報はもちろん、オープンデータセット集なども合わせてメール配信しております。