データスクレイピングの注意点と応用例を解説

2020年08月05日

データスクレイピング(ウェブスクレイピング)とは

データスクレイピング(ウェブスクレイピング)とは、Webサイトから情報を取得し、非構造化データを分析可能な構造化データへ変換し、新たな情報を生成することをいいます。ウェブクローラーあるいはウェブスクレイパーとも呼ばれます。人間によるコピーアンドペースト、httpプログラミング、全文検索と正規表現マッチ、データマイニングアルゴリズムなど、幅広い自動化技術が使用されます。

データスクレイピングはいくつかのWebサイトの利用契約に反する可能性があるので、必ずご確認ください。例えば、Twitterではサービス利用契約によって、APIの利用が必須となっています。

 

データスクレイピングに関する用語

データスクレイピングに関する用語を以下にまとめてみました。

スクレイパー

データスクレイピングを行うプログラム。例えば、SNSサイトを巡回して投稿内容を引き出し、一覧するプログラムや、ECサイトの商品データを集め、価格表を生成するプログラムなど。

クローリング

クローラーで情報収集する作業のこと。

クローラー

Webサイトを巡回し、情報を収集し、自動的にデータベースにインデックスを作成するプログラム。(例: GoogleのGooglebot)

API

一定の情報を設けてサービス側が開発者向けに提供する機能。

RPA

Robotic Process Automation(ロボティック・プロセス・オートメーション)の略語で、日本語に直訳すると「ロボットによる業務自動化」という意味です。RPAは人間が支持したルールに従って、メール処理やPC操作などの作業を行います。詳しくはこちらの記事も御覧ください。

 

RPAを活用したデータスクレイピング

RPAツールで自動化し、簡単ににWebスクレイピングを行うことができます。例えば、UiPath(ユーアイパス)社が提供するRPAがツール「UiPath」などがあります。こちらは定型業務を自動化するためのロボットを作成するRPAツールで、プログラミング知識のないユーザーも利用可能です。UiPathのCommunity Editionというライセンス形態の無料体験もあるので、データスクレイピングのニーズのある方は一度試してみる価値はありそうです(無料体験は売上が100万ドル未満かつ端末数が250台未満の小規模事業者(個人含む)、非営利団体、教育もしくは研究機関、の方が対象となっています)

 

データスクレイピングの応用例: 株価スクレイピング

データスクレイピングを利用し、株価の変動をリアルタイムに追跡することができます。Pythonを使えば、Webサイトへのアクセスもエクセルファシルの操作も自動化できるので、株価データをまとめたエクセルファイルが数秒で作成できるPythonプログラムなどもあります。ただし、Yahooファイナンスなど、株価スクレイピングを禁止しているWebサイトもあるので、利用契約を必ずご確認ください。

データスクレイピングは他にもSNSデータスポーツデータ、気象データのスクレイピングなど、幅広い応用例があります。しっかりとテクニックを学びたい方は、こちらの書籍もお勧めいたします。

Pythonスクレイピングの基本と実践 データサイエンティストのためのWebデータ収集術

 

AIの研究開発には、データスクレイピングによって収集されたデータの前処理やアノテーションが必要となります。データ作成やアノテーションのニーズがある方は、低価格且つ高品質な教師データサービスを提供している当社にお問い合わせください。世界の各タイムゾーンを渡る、100万人の認定コントリビューターが登録されているので、大規模なAIプロジェクトも素早く仕上げることができます。テキスト、画像、音声等、様々なデータタイプに300言語で対応可能です。無料トライアル・ご相談はこちらからお問い合わせください。

AI向け教師データの作成やアノテーションサービスを提供し、研究開発を支援いたします。

メディア掲載結果

    AI・機械学習の最新情報をお届けします!

    Lionbridge AIのブログで紹介している事例記事やトレンドニュースといったビジネスに役立つ情報はもちろん、オープンデータセット集なども合わせてメール配信しております。