【17個掲載】OCR・手書き文字認識データセットまとめ

2020年10月23日

OCR(光学式文字認識 )とは

OCR(光学式文字認識)は、機械に画像から文字データを読み取らせるテクノロジーのことを示します。書類にOCR処理を施せば、含まれるテキストデータが完全に編集可能となります。画像内の手書き入力を検出する、GoogleのOCRなどもお試しできます。

OCRは私たちの日常生活で様々な場面で使われております。手書き文字のデータ化による領収書のスキャン、ビジネス書類のデータ入力や車のナンバープレートを自動的に認識する監視カメラなどはOCRを活用しています。

 

機械学習による文字認識OCR

機械学習による文字認識システムの機器では筆順、角速度、線の方向などが入力時にわかるので、テキスト認識が容易です。また、ユーザー側も徐々に認識されやすい文字を書くようになる傾向があります。画面上や画像で、読み方がわからない漢字を見つけたとき、辞書をひき、部首や画数から調べる手間を掛けず、手書き入力できるOCRアプリを活用できます。

手書き文字認識アルゴリズムでは、KerasTensorFlowのAttentionを使用したOCR、pythonで自作できるOCRなどがあります。YOLOとTensorFlowのゼッケン番号検索OCRの事例なども興味深いです。

 

OCR・手書き文字認識エンジンを紹介

OCR・文字認識AIを提供している企業のサービス内容や価格をご紹介していきます。

ReiWorQ: OCRで手書き文字を高精度でデジタルデータ化することができます。AIを搭載しており使えば使うほど読み取り精度が向上するので、従来のOCRではできなかった文字と文字のつなぎ目や切れ目の判別、乱筆文字でも正しく読み取ることが可能です。また、クラウドサービスなのでWebブラウザから簡単に操作することができます。

Feeder: 株式会社エムティーアイが提供するOCRアプリ「Feeder」は、領収書データの画像処理を行い、経緯精算業務の効率化に繋がります。

BPA2: RPAやOCRで紙帳票業務の効率化をサポートしてくれるサービスです。組み合わせを検証済みの「AnyFormOCR(ハンモック社製品)」がBPA2で仕分け済の帳票データをOCR処理し、自動的にCSVデータとして出力します。サービスプランは「BPA2帳票自動仕分け」が月額¥35000〜と、初期導入支援サービス費用¥300,000〜の価格で提供されています。

Cinnamon: 株式会社シナモンが提供する、OCRを活用した文字読み取りエンジン「Flax Scanner(フラックス・スキャナー)」は注文書、納品書、請求書などの受発注業務全般の効率化をサポートしてくれます。

 

OCR・文字の画像認識データセット

次いで、OCR・文字認識向けの学習データとして使用できるデータセットをご紹介していきます。手書き文字認識、日本語OCR、数字のみのOCRなど、幅広くデータセットを集めました。

米国国立標準技術研究所: 米国国立標準技術研究所が3600人の手書き文字を収集。800,000字以上の画像が含まれる。

数式: 101個以上の数学的記号を含む10,000個以上の数式。

中国語の文字: 約10件のニュース記事に相当する909,818枚の画像を含む中国語の手書き文字のデータセット。

アラビア語の活字: 113,284語の語彙を含む。10種類のアラビア文字フォントを使用。

資料データベース: 189人による手書きのオンライン文書を941点収集。リスト、表、数式、略図、図面を含む。

Iam On-line Handwriting: ホワイトボードに手書きされた英語のテキストを1700点以上含む。

スタンフォードOCR: 話し言葉のシステムを研究するMITのグループが収集した手書き文字のデータセットをスタンフォード大学が公表したもの。

Chars74Kデータ: 英語とカンナダ語の数字の画像を74,000枚含む。

日本古典籍くずし字データセット: 2019年11月現在、日本古典籍くずし字データセットの規模は、国文学研究資料館所蔵で日本古典籍データセットにて公開する古典籍、および国文学研究資料館の関係機関が公開する古典籍44点の画像データ6,151コマから切り取った、くずし字4,328文字種の字形データ1,086,326文字です。

 

MNISTデータセット

MNISTデータセット(米国標準技術研究所による手書き数字データベース、読み方: エムにスト)は機械学習用の定番データセットの一つとされています。サイズが小さく、使いやすいこともあって、しばしば、データサイエンティストが最初に取り組むデータセットになっています。また、多くの人が、異なる機械学習アルゴリズムの比較や性能テストに利用しています。 

このデータセットには、トレーニング用手書き数字の画像60,000個とテスト用画像10,000個が含まれています。また、この機械学習用ベンチマークに触発され、同様の形式で作成されたデータセットもあります。以下のリストのデータセットは、元のMNISTデータセットと同じ形式を使用しており、多くがMNISTデータセットと完全互換できるように作成されています。

 

MNISTデータセットの再フォーマット、拡張、改良

EMNIST: 拡張MNIST(EMNIST)は元の手書き文字データセットNISTから作成された六つのデータセットから構成される。MNISTは手書き数字だけを含むデータセットだが、EMNISTはNISTデータベースの手書き文字の部分に同じ変換プロセスを用いている。 

JPG形式のMNIST: タイトルが示すとおり、元のデータセットを再フォーマットしたデータセット。文字列形式の代わりにJPEG形式を用いた画像ファイル。

CSV形式のMNIST: MNISTをよりアクセスしやすいCSV形式のファイルに再フォーマットしたデータセット。

 

MNISTデータセットに触発された機械学習用データセット

3D MNIST: 3次元コンピュータビジョンの問題に取り組む人にリソースを提供することを目的として作成されたデータセット。MNISTの画像から3次元点群を生成して作成され、5000個のトレーニング用点群と1000個のテスト用点群が含まれる。 

ファッションMNIST: ザランド(Zalando)の商品カタログから収集した衣類やアクセサリーの画像が含まれるザランド研究所のデータセット。MNISTの形式に従っているので、トレーニング用画像60,000個とテスト用画像10,000個から構成され、画像は全て28×28ピクセルのグレースケール。各画像には次のアノテーションのうち、どれか一つが付けられている: アンクルブーツ、バッグ、コート、ドレス、プルオーバー、サンダル、シャツ、スニーカー、Tシャツ/トップス、ズボン 

手話MNIST: 手話認識モデルの学習用に、MNISTの完全互換として作成されたデータセット。元のMNISTの形式と厳密に一致しており、上記のファッションMNISTに触発されて作成されている。

大腸組織学MNIST: Zenodo.orgから収集した医用画像データセット。大腸癌の組織画像5,000個以上が含まれる。

皮膚癌MNIST: 皮膚病変のダーモスコピー画像10,015個が含まれる医用画像データセット。「ISIC 2018チャレンジ: メラノーマ検出に向けた皮膚病変の分析」用に作成された。

元のMNISTデータベースの詳細およびデータセットへのアクセスについては、作成者ウェブサイトをご覧ください。光学文字認識と手書き文字の詳細やデータセットについては、以下の関連記事をご覧ください。

 

OCR・文字認識向けデータセットをお探しですか?

お探しのOCR・文字認識データセットが見つからない場合は、当社が作成いたします。20年以上に渡るAIプロジェクトの実績を持ち、データ作成・アノテーションサービスを提供しております。データサイエンティストや言語学者を含み、100万人のアノテーターが登録されているので、大規模なAIプロジェクトも迅速且つ正確に仕上げます。アノテーターは秘密保持契約に署名することが義務付けられており、データ保護のためにオンサイトスタッフやリモートスタッフを派遣し、アノテーターにお客様ご指定のツールを利用してもらうこともできます。必要に応じて案件に特化した秘密保持契約も作成できるので、データの安全性も保証しております。ご相談・無料トライアルはこちらから。

文字認識・OCR向けの学習データを提供いたします。

メディア掲載結果

    AI・機械学習の最新情報をお届けします!

    Lionbridge AIのブログで紹介している事例記事やトレンドニュースといったビジネスに役立つ情報はもちろん、オープンデータセット集なども合わせてメール配信しております。