非構造化データの分析はなぜ、進まないのか。非構造化データと構造化データの違いを解説

2020年10月23日

非構造化データとは

ビッグデータ活用の中心となる、非構造化データとは、構造定義されておらず、関係モデルにうまく適合されていないデータのことです。量が多く、発生頻度が高く、発生場所や種類も多いという、3つの特徴があります。会社員の日常業務で生成されるメールやチャット文書、画像や動画も含まれ、主な例としては、電子メール、提案書、企画書、請求書、デザインデータなどが挙げられます。

今後も、非構造化データは飛躍的に増大すると言われている。

 

なぜ、非構造化データの分析が進まないのか

非構造化データは、データ本体で意味を持ち、それぞれで業務用述が異なるため、データベースでは扱いにくくなってしまいます。CSVファイルやリレーションデータベース(RDBMS)と違った形式なので、取り扱い方法や管理方法も異なり、難しくなります。非構造化データを機械学習に使用する前に、データマイニングを行い、メタデータを付けるなど、前処理が必要となる場合がよく見られます。非構造化データのテキストマイニングについて詳しくは、こちらの記事もご覧ください。

 

構造化データと非構造化データの違い

それに比べて、構造化データとは、ExcelやCSVファイルなどで表現される、列と行の概念を持つデータをいいます。どこにどのようなデータがあるのか、列と行によって決められているので、データの検索、集計、比較などの分析タスクに適しています。

最後に、半構造化データとは、非構造化データに「フレキシブルな構造」を与えたものをいいます。「フレキシブルな構造」は「NoSQL」とも呼ばれ、グラフ、キーバリュー、ドキュメント、カラムの4つの形に分類され、いずれもデータと名前(タグ)の組み合わせでデータが管理されます。

 

構造化データ

非構造化データ

半構造化データ

特徴

列と行からなるフォーマットで、コンピュータ黎明期からデータベースやシステム間インターフェイスとして活用

構造定義されておらず、関係モデルにうまく適合されていない

カラム定義、テーブル定義等の明確な構造定義を持たないデータ。IoTやビッグデータ等で多用される

注釈

列と行の概念を持つデータ

専門的なツールを使わないと分析ができない

「非構造データ」と一括りにされるケースもある

Excel
CSV
RDBMSl

電子メール
Officeドキュメント
PDF

JSON、XML、Parque、Avro等のデータフォーマット、KVS(Key-Value Store)型DBやドキュメントDB

参照文献: 非構造化データ活用の課題

 

非構造化データの収集や前処理をサポートします!

非構造化データの収集や前処理(アノテーション)でお困りの方は、ぜひ当社にご相談ください。20年以上に渡るAIプロジェクトの実績を持ち、データ作成・アノテーションサービスを提供しております。データサイエンティストや言語学者を含み、100万人のアノテーターが登録されているので、大規模なAIプロジェクトも迅速且つ正確に仕上げます。アノテーターは秘密保持契約に署名することが義務付けられており、データ保護のためにオンサイトスタッフやリモートスタッフを派遣し、アノテーターにお客様ご指定のツールを利用してもらうこともできます。必要に応じて案件に特化した秘密保持契約も作成できるので、データの安全性も保証しております。ご相談・無料トライアルはこちらから。

AI向け教師データの作成やアノテーションサービスを提供し、研究開発をサポートします。

メディア掲載結果

    AI・機械学習の最新情報をお届けします!

    Lionbridge AIのブログで紹介している事例記事やトレンドニュースといったビジネスに役立つ情報はもちろん、オープンデータセット集なども合わせてメール配信しております。