【23個掲載】OCR(光学式文字認識)・手書き文字認識データセットまとめ

2020年04月06日

OCR(光学式文字認識 )とは?

OCR(光学式文字認識)は、機械に画像から文字データを読み取らせるテクノロジーのことを示します。書類にOCR処理を施せば、含まれるテキストデータが完全に編集可能となります。OCRは私たちの日常生活で様々な場面で使われております。例えば、ビジネス書類のデータ入力や車のナンバープレートを自動的に認識する監視カメラなどはOCRを活用しています。

 

機械学習による文字認識OCRについて

機械学習による文字認識システムの機器では筆順、角速度、線の方向などが入力時にわかるので文字を認識することがが容易です。また、ユーザー側も徐々に認識されやすい文字を書くようになる傾向があります。(しかしもちろん、紙に書かれた手書き文字認識の場合はこの利点はありません。)

メールを打ってて読めない漢字を見つけたとき、辞書をひき、部首や画数から調べる手間を掛けず、手書き入力できるOCRアプリを活用できます。

 

文字認識・OCRデータセット

米国国立標準技術研究所: 米国国立標準技術研究所が3600人の手書き文字を収集。800,000字以上の画像が含まれる。

デーヴァナーガリー文字: デーヴァナーガリーの手書き文字のデータセット。デーヴァナーガリーを母国語とする25人から、36種類の文字のサンプルを合計1800個収集。

数式: 101個以上の数学的記号を含む10,000個以上の数式。

中国語の文字: 約10件のニュース記事に相当する909,818枚の画像を含む中国語の手書き文字のデータセット。

アラビア語の活字: 113,284語の語彙を含む。10種類のアラビア文字フォントを使用。

資料データベース: 189人による手書きのオンライン文書を941点収集。リスト、表、数式、略図、図面を含む。

Iam On-line Handwriting: ホワイトボードに手書きされた英語のテキストを1700点以上含む。

ストリートビューテキスト: Googleのストリートビューから主に街中の標識やボードを収集。

ストリートビュー・ハウスナンバー: Googleのストリートビューから住居番号を収集。0から9までの数字を73257個含む。

自然環境OCR: 実世界にあるものの画像659枚と5238個のテキストアノテーションを含む。

シーン・テキスト: 異なる照明条件 (晴れた日、夜、強い人工の光など) で室外、室内など様々な環境で撮影された3000枚の画像を含む。

テキスト検出: ポケットカメラで撮影された500枚の自然画像。室内画像は主に、掲示、ドアプレート、注意プレートであり、屋外画像は主にガイドボードやビルボードである。

スタンフォードOCR: 話し言葉のシステムを研究するMITのグループが収集した手書き文字のデータセットをスタンフォード大学が公表したもの。

Chars74Kデータ: 英語とカンナダ語の数字の画像を74,000枚含む。

日本古典籍くずし字データセット: 2019年11月現在、日本古典籍くずし字データセットの規模は、国文学研究資料館所蔵で日本古典籍データセットにて公開する古典籍、および国文学研究資料館の関係機関が公開する古典籍44点の画像データ6,151コマから切り取った、くずし字4,328文字種の字形データ1,086,326文字です。

 

 

MNISTデータセット

MNISTデータセット(米国標準技術研究所による手書き数字データベース)は機械学習用の定番データセットの一つとされています。サイズが小さく、使いやすいこともあって、しばしば、データサイエンティストが最初に取り組むデータセットになっています。また、多くの人が、異なる機械学習アルゴリズムの比較や性能テストに利用しています。 

このデータセットには、トレーニング用手書き数字の画像60,000個とテスト用画像10,000個が含まれています。また、この機械学習用ベンチマークに触発され、同様の形式で作成されたデータセットもあります。以下のリストのデータセットは、元のMNISTデータセットと同じ形式を使用しており、多くがMNISTデータセットと完全互換できるように作成されています。

 

MNISTデータセットの再フォーマット、拡張、改良

EMNIST: 拡張MNIST(EMNIST)は元の手書き文字データセットNISTから作成された六つのデータセットから構成される。MNISTは手書き数字だけを含むデータセットだが、EMNISTはNISTデータベースの手書き文字の部分に同じ変換プロセスを用いている。 

JPG形式のMNIST: タイトルが示すとおり、元のデータセットを再フォーマットしたデータセット。文字列形式の代わりにJPEG形式を用いた画像ファイル。

CSV形式のMNIST: MNISTをよりアクセスしやすいCSV形式のファイルに再フォーマットしたデータセット。

 

MNISTデータセットに触発された機械学習用データセット

3D MNIST: 3次元コンピュータビジョンの問題に取り組む人にリソースを提供することを目的として作成されたデータセット。MNISTの画像から3次元点群を生成して作成され、5000個のトレーニング用点群と1000個のテスト用点群が含まれる。 

ファッションMNIST: ザランド(Zalando)の商品カタログから収集した衣類やアクセサリーの画像が含まれるザランド研究所のデータセット。MNISTの形式に従っているので、トレーニング用画像60,000個とテスト用画像10,000個から構成され、画像は全て28×28ピクセルのグレースケール。各画像には次のアノテーションのうち、どれか一つが付けられている: アンクルブーツ、バッグ、コート、ドレス、プルオーバー、サンダル、シャツ、スニーカー、Tシャツ/トップス、ズボン 

手話MNIST: 手話認識モデルの学習用に、MNISTの完全互換として作成されたデータセット。元のMNISTの形式と厳密に一致しており、上記のファッションMNISTに触発されて作成されている。

大腸組織学MNIST: Zenodo.orgから収集した医用画像データセット。大腸癌の組織画像5,000個以上が含まれる。

皮膚癌MNIST: 皮膚病変のダーモスコピー画像10,015個が含まれる医用画像データセット。「ISIC 2018チャレンジ: メラノーマ検出に向けた皮膚病変の分析」用に作成された。

元のMNISTデータベースの詳細およびデータセットへのアクセスについては、作成者ウェブサイトをご覧ください。光学文字認識と手書き文字の詳細やデータセットについては、以下の関連記事をご覧ください。

 

以前の記事を読み逃している方は是非、 機械学習に使えるオープンデータセット自然言語処理に使えるデータセットもご覧ください。

 

OCR向けデータセットをお探しですか?

お探しのデータセットが見つからない場合は、当社が作成いたします。お客様のニーズに合わせたデータの収集やアノテーションサービスを提供しています。お客様の各プロジェクトにぴったりのカスタムワークフローを作成し、認定コントリビュターを割り当て、全てのプロセスをお引き受けします。300言語の話者が100万名登録されています。無料見積もり・お問い合わせはこちらから。

OCRモデルの学習データを提供いたします

メディア掲載結果

AI・機械学習の最新情報を配信中

Lionbridge AIのブログで紹介している事例記事やトレンドニュースといったビジネスに役立つ情報はもちろん、オープンデータセット集なども合わせてメール配信しております。