ビッグデータを効率的に収集するには?

2020年05月04日

ビッグデータとは?

ビッグデータとは一般的なデータ処理のソフトウェアで対応できないような、巨大で複雑な非構造化データの集合をいいます。ソーシャルメディアの投稿、メールやチャットなどのオフィスデータ、画像や動画などもビッグデータの枠に含まれます。

ビッグデータの種類をマッピングした画像
株式会社日立ソリューションズより引用

 

この記事では機械学習に興味があるが何から始めたら良いのかわからない、または今は時期尚早だがAI導入の準備はしておきたいという担当者の方のために、第一歩となるデータ収集について紹介します。

 

ビッグデータを収集する方法

具体的な課題やAIプロジェクトがまだ設定されていない場合、まずはWeb上の公開データを触ってみることをお勧めします。当社は日本語のデータセットチャットボット向け対話データセットなど、オープンデータセットのまとめ記事を公開しています。

しかし、企業のAI導入となりますと、データプロバイダの協力が必要となってくるケースが多いでしょう。クラウドソーシングサービスに外注すれば、多種多様なデータ収集を低価格で収集することが可能になります。

今回は、データ収集のプロバイダを9社紹介します。

 

データ収集のプロバイダ

データ収集プロバイダLionbridgeのロゴ

Lionbridge: 世界各地に渡る100万人のコントリビューターが300言語でテキスト、音声、画像、映像データを収集します。クラウドワーカーは自社開発のデータプラットフォーム上でタスクを行いますので、プロジェクト管理もLionbridgeチームが24時間対応しています。データ収集後、前処理やアノテーションの作業も外注可能です。お問い合わせ・無料見積もりはこちらから。

 

データ収集プロバイダDataRobotのロゴ

DataRobot: データを収集することで、過去のイベントのレコードを取得できるため、データ分析を使用して反復パターンを検出できるようになります。DataRobotは、データの収集、保存、変換と予測モデリングのための学習データの準備などを支援します。

 

データ収集プロバイダUnimediaのロゴ

Annoteq: 株式会社ユニメディアが提供するアノテーションサービス「Annoteq(アノテック)」はWebに掲載されている画像の収集から、リアルの画像収集まで提供します。OCR構築のための手書き文字データ収集も提供しています。実働100万人のを誇るクラウドソーシング・プラットフォームであり、深層学習モデルの構築に必要な学習データセットを作成するサービスです。今後はデータ収集だけでなく、品質管理システムなどの機能付きのAPIおよびアノテーションツールの提供が予定されています。

 

データ収集プロバイダHBLABのロゴ

HBLAB: 機械学習用に、データを収集してから、意味付けのアノテーションまで対応可能。画像Crawl、写真撮影、テキスト生成など。自動運転向け動画アノテーション、農業向けAIシステムの果物と葉のアノテーション、OCRシステム向けのアノテーションなどを行われています。

 

データ収集プロバイダIR-ALTのロゴ

IR-ALT: 自然言語処理の研究開発に利用できる言語データの収集サービスです具体的なサービスは、言語データの作成、正解データの作成、言語解析、音声データ解析、などを含みます。データの収集や作成方法は、どこかにすでに存在するデータを集める場合と、新たにデータを作成する場合があります。

 

データ収集プロバイダULU-RUBPOのロゴ

うるるBPO: クローラーなどでは難しいデータ収集を、仕様書に従い収集してくれるサービスです。データ収集のみに限らず、データ入力、文書電子化、データクレンジング、OCRシステム処理、DM発送代行、など幅広くサービスを提供されています。

 

データ収集プロバイダHumanInterfaceのロゴ 

Human Interface: 5000人の登録者から調査対象ユーザーを選び、データ収集を依頼できます。男女比、年齢構造などご希望の人数構成にできます。例えば、自由対話でコンピュータを音声で操作するための音声データ収集や、カーナビ音声認識の成否データと発話音声データの収集などの実績があるようです。

 

データ収集プロバイダCROWDビジネスのロゴ

Crowdビジネス: 公開データや音声データ収集のクラウドソーシングサービスです。1000万人のクラウドワーカーが登録されていて、こうひん死んつ、スピード納品、簡単発注システム、そしてセキュリティを強みとされています。

AI開発に肝心な学習データを提供いたします

メディア掲載結果

    AI・機械学習の最新情報をお届けします!

    Lionbridge AIのブログで紹介している事例記事やトレンドニュースといったビジネスに役立つ情報はもちろん、オープンデータセット集なども合わせてメール配信しております。