OCRサーバーの構築

2016年4月12日

サーバー テクノロジー 日記

画像からテキスト文字を読みだす技術はそんなに新しくない技術で、スキャナ機などに付属でソフトウェアが付いている事もありますが、そんなOCRという技術は、オープンソースでも沢山の種類が出まわっており、機械学習や人工知能などと合わせる事により、無限大の使い方がありそうなので、はじめの一歩の構築を行なってみました。

OCRとは?

Optical character recognition の略で、「光学式文字認識」が直訳なようです。 wikipedia 個人的にはImage to Textという方がしっくり来ると思うんだが、OCRの方が一般的ですね。

たくさん公開されているOCR

MOONGIFT 上記サイトでもリストアップされているが、このサイトでは15種類も紹介されています。
サーバモジュール tesseract-ocr Google製のOCRソフト。 https://github.com/tesseract-ocr
JavaScript Ocrad.js 日本語認識はできないようです・・・orz http://antimatter15.com/ocrad.js/demo.html
JAVA Eye JavaベースのOCRですが、これも日本語はダメなようです。 http://eyeocr.sourceforge.net/
webサービス NHocr 手書きもいけるみたい。 http://appsv.ocrgrid.org/nhocr/index-j.html
やはり、妥当なのは「tesseract-ocr」だと判断。

各種サーバーにインストール

各環境でリポジトリさえしっかり押せていれば、簡単に導入できるっぽいですね。 ただ、日本語変換のインストールがやっかいなようです。

Ubuntu , debian

「/etc/apt/source.list」に以下を追記 deb http://ftp.de.debian.org/debian sid main ## ライブラリインストール $ sudo apt-get install libpng-dev $ sudo apt-get install libjpeg-dev $ sudo apt-get install libtiff-dev ## 本体インストール $ sudo apt-get install tesseract-ocr $ sudo apt-get install tesseract-ocr-jpn

CentOS

$ sudo yum install tesseract

使い方

ベーシックな使い方は以下のようにコマンド叩くだけです。 $ tesseract ***.jpg out-text 日本語で認識させたい時は $ tesseract ***.jpg out-text -l jpn どうやらこのモジュールスグレモノで機械学習でどんどん認識率がましていくようです。 この辺は、次回にレポートしたいと思います。

OCRの用途イメージ

・FAXをテキストデータに変換 ・スマホで撮影した写真から感光看板などをテキスト化 ・本や雑誌などのページを簡単テキスト化(本屋さんでやっちゃダメだよ)

人気の投稿

このブログを検索

ごあいさつ

このWebサイトは、独自思考で我が道を行くユゲタの少し尖った思考のTechブログです。 毎日興味がどんどん切り替わるので、テーマはマルチになっています。 もしかしたらアイデアに困っている人の助けになるかもしれません。

ブログ アーカイブ