
異常検知とは
異常検知(アノマリー分析・検知、anomaly detection)とは、過去の故障検知や異常に関連するデータセットにたいし、他のデータパターンや標準パターンとは異なるものを分析し、識別する技術を指します。結果を機械学習やディープラーニングしていくことで、故障検知・エラーが出る可能性のあるものを予測するものです。
また異常検知は、AI(人工知能)を使い、ビッグデータを機械学習モデルに読み込ませ相互の共通点や相違点などを比較分析し、パターンを学習させることで実用的な精度にまで向上させていきます。
精度が高まることで、サービスへの影響を最小限にするだけでなく、対応経費のコストカットも見込めます。
異常検知の使用シーン
主に、Webサービスの不正アクセスや金融機関の不正利用などを防止する目的に利用されたり、工場の稼働データの中から異常値を検出して、不具合や故障を検知する目的で使用されたりします。大量データの収集・蓄積が可能で、機械学習やディープラーニングによる分析が実施しやすい環境下で利用されています。
製造業には、異常検知技術を活用するポテンシャルが大きいですが、不良品が元々少ないので、不良予測に関するデータを学習させることが難しい状況にあります。良品・不良品の仕分けなどを人間が実施していることが多いです。
例えば、キューピー株式会社/株式会社ブレインパッドは、食品製造ラインにおける異物混入や不良品を検知するために、製造ラインに流れる1cm角のじゃがいもをコンベア上に並べ、カメラで撮影し、画像データを解析しました。良品・不良品を識別する分類アプローチをとらず、良品のみの特徴を学習し、それと異なるものを判定する異常検知技術を採用しました。他の製造業でも、オートエンコーダなどを使い、良品データのみから特徴を抽出し、その特徴との差分を利用することで、異常検知を実施する手法が使われています。
※ オートエンコーダ(自己符号化器)とは、エンコーダとデコーダからなるニューラルネットワークであり、分類や生成作業などに使われます。詳細はこちらの記事を御覧ください。。
以下に、主な異常検知の使用シーンをまとめました。
データの種類 | 使用シーン |
ベクトルデータ(多次元ベクトルデータ) |
|
制御・監視(車制御センサー、工場監視) |
|
ログ(クレジットカード履歴、株等の売買履歴、ヘルスケア) |
|
ネットワーク(アクセスログ) |
|
画像(製品・商品、建造物の外観、監視カメラ) |
|
音声(構造物の反響音) |
|
異常検知の手法
異常検知には、ルールの学習、教師データなし、教師データあり、回帰の4つの手法があります。
- ルールベース: 事前に定義した正常時のデータにおけるルールを決めそれを超えた場合に異常とみなします。
- 教師あり学習: 過去のデータからパターンを見い出し新たなデータが異常な事象に当てはまる度合いを確率として出力します
- 教師なし学習: データそのものが持つ構造・特徴を分析し、似たデータ同士にグループ化して分類する手法です
- 回帰: 正常時のデータから回帰式のモデルを構築しモデルから逸脱したものを異常値かどうかの判定を行います。
時系列データの異常検知
時系列データに対する異常検知は、目的によって手法が異なります。
外れ値検出: 外れ値検出とは、予想外のデータ点を検出する手法です。k近傍法を適用して、固定区間を設定すると、時系列えーたの外れ値を検出することができます。
異常検出(異常値検出、異常部位検出) 一つ一つのデータポイントだけでなく、以上が起きている部分時系列を検出する手法です。
変化検知: 時系列データのパターンが急激に変化する箇所を検知する、異常検知の手法です。
pythonによる時系列データの異常検知について詳しくは、株式会社カブク様のこちらの記事もご覧ください。
異常検知の論文
異常検知に関わらず、機械学習の研究開発において、最新の論文を読むことによって理解を高めることは重要です。以下に、Lionbridgeチームが選択した異常検知論文をいくつか紹介していきます。
異常検知: 外れ値検知と変化検知
著者: 山西 健司
異常検知では、外れ値や異変を発見することにより、特定な情報を抽出する技術です。本稿では、データマイニング分野で発展している異常検知技術の代表的なものを、外れ値検知と変化検知に分けて紹介されます。
Rethinking Assumptions in Deep Anomaly Detection
著者: Lukas Ruff, Robert A. Vandermeulen, Billy Joe Franks, Klaus-Robert Müller, Marius Kloft
異常検知は一般的に分類問題として扱われ「異常値」の教師データが少ないため、教師なし学習が使われる。本稿は、現状の異常検知アプローチを最高するものです。
Anomaly Detection for an E-commerce Pricing System (異常検知システムで企業の信頼を守る)
著者: Jagdish Ramakrishnan, Elham Shaabani
ECサイトの運営者は商品一つ一つに手動で価格付けを行うのは無理があるため、価格付けシステムが便利でしょう。世界最大のスーパーマーケットチェーンであるWalmartは価格付けシステムと同時に、謝り防止に異常検知システムも導入しました。教師あり学習モデルと教師なし学習モデルの両方を設置しました。
異常検知のデータセット
こちらでは、異常検知の公開データセットを9件紹介していきます。
MVTec 異常検知データセット: 15カテゴリーに別れ、工業製品や農作物、各ドメインごとの欠陥、画像内のさまざまな配置、さらに欠陥領域のセグメンテーションデータもアノテーションに含まれている異常検知データセットです。
MIMII Dataset: Sound Dataset for Malfunctioning Industrial Machine Investigation and Inspection: 工場機械の異常検知を、音から行うためのデータセットがMIMIIです。バルブやポンプ、ファンといった工場内の機械の音が収録されている。
異常も、漏れやこすれなど様々なタイプをそろえている。
- バルブ、ポンプ、ファン、スライドレールの4種類の産業機械から発生する音を収録されています。
- 各機種のデータには、通常音(5000秒~10000秒)と異常音(約1000秒)が含まれてます
Numenta Anomaly Benchmark : Numenta Anomaly Benchmark v1.1を構成するデータとスクリプトが含まれています。ストリーミング、リアルタイムアプリケーションにおける異常検出のためのアルゴリズムを評価するためのベンチマークです。50以上のラベル付けされた実世界および人工的な時系列データファイルと、リアルタイムアプリケーション用に設計された新しいスコアリングメカニズムで構成されています。58個の時系列データファイルから構成されています。
異常検知参考資料: 一般的なデータ分布から逸脱した外れ値を特定することを目的とした、刺激的でありながらも挑戦的な分野です。外れ値検出は、クレジットカード詐欺分析、ネットワーク侵入検出、機械装置の欠陥検出など、多くの分野で重要であることが証明されています。このリポジトリでは、以下のものを収集しています。
- 書籍・学術論文
- オンラインコースとビデオ
- 外れ値データセット
- オープンソースおよび商用ライブラリ/ツールキット
- キーコンファレンス、ジャーナル
UCSD 異常検知データセット: UCSD異常検知データセットは、歩行者の歩道を見下ろす高所に設置された固定カメラで取得されました。歩道の群衆密度は、まばらなものから非常に混雑しているものまで様々です。通常の設定では、ビデオには歩行者のみが含まれています。異常なイベントは、以下のいずれかに起因しています。
- 歩行者以外の物体が歩道を循環している
- 異常な歩行者運動パターン
Anomalous Behavior Dataset: ビデオにおける異常行動検出のためのデータセットを提供しています。このデータセットには、照明効果、シーンクラッタ、可変ターゲット出現、急激な動き、カメラのジッターなど、さまざまな困難なシナリオを描写した8つの画像シーケンスが含まれています。すべてのシーケンスは、ビデオのトレーニング部分と比較して異常な挙動を識別するために手動で構築されたグランドトゥルースを使用することができます。また、グラウンドトゥルースの構築とその後の評価のためのソフトウェアも提供されています。Traffic-Train, Belleview, Subway-Exitなどのカテゴリで用意されてます。
VIRAT Video Dataset: VIRATビデオデータセットは、既存の行動認識データセットよりも、解像度、背景クラッタ、シーンの多様性、人間の活動/イベントカテゴリなどの点で、ビデオ監視領域のために現実的で、自然で、挑戦的なものになるように設計されています。コンピュータビジョンコミュニティのベンチマークデータセットとなっています。
- 多様なタイプの人間の行動と人間と車の相互作用が含まれており、行動クラスごとに多くの例(30以上)が含まれています。
- 監視ビデオは、広い範囲で空間・時間で計測可能です。このデータセットは、フレームレートが2~30Hz、人物の高さが10~200ピクセルの範囲をキャプチャするように設計されています。
ODDS 異常検知データセット: ODDSでは(利用可能な場合には)基底真理を持つ異常検出データセットの大規模なコレクションへのアクセスをオープンに提供しています。私たちの焦点は、異なるドメインからのデータセットを提供し、研究コミュニティのための単一のプラットフォームの下でそれらを提示することです。そのため、ODDSライブラリ内の異なるテーブルに、データセットの種類に基づいてデータセットを配置しています。
- 多次元の点データセット
- イベント検出のための時系列グラフデータセット
- 敵対/攻撃シナリオとセキュリティの異常検知データセット
異常検知メタ分析ベンチマーク: 異常検出のメタ分析を行っています。文献を通して異常検出アルゴリズムをベンチマークし、重要と考えるいくつかの次元にわたった大規模なデータセットを作成しています。
- ポイントの難易度
- 異常の相対的な頻度
- 異常のクラスタ化度
- 特徴の妥当性
異常検知データセットをお探しでしょうか?
お探しの異常検知データセットが見つからない場合、当社が作成いたします。100万人の認定コントリビューターが登録されており、20年に渡るAIプロジェクトの実績を持ちます。教師データの作成やアノテーションでお手伝いできることの詳細につきましては、お気軽にお問い合わせください。