画像からテキスト文字を読みだす技術はそんなに新しくない技術で、スキャナ機などに付属でソフトウェアが付いている事もありますが、そんなOCRという技術は、オープンソースでも沢山の種類が出まわっており、機械学習や人工知能などと合わせる事により、無限大の使い方がありそうなので、はじめの一歩の構築を行なってみました。
OCRとは?
Optical character recognition
の略で、「光学式文字認識」が直訳なようです。
wikipedia
個人的にはImage to Textという方がしっくり来ると思うんだが、OCRの方が一般的ですね。
たくさん公開されているOCR
MOONGIFT
上記サイトでもリストアップされているが、このサイトでは15種類も紹介されています。
やはり、妥当なのは「tesseract-ocr」だと判断。
各種サーバーにインストール
各環境でリポジトリさえしっかり押せていれば、簡単に導入できるっぽいですね。
ただ、日本語変換のインストールがやっかいなようです。
Ubuntu , debian
「/etc/apt/source.list」に以下を追記
deb http://ftp.de.debian.org/debian sid main
## ライブラリインストール
$ sudo apt-get install libpng-dev
$ sudo apt-get install libjpeg-dev
$ sudo apt-get install libtiff-dev
## 本体インストール
$ sudo apt-get install tesseract-ocr
$ sudo apt-get install tesseract-ocr-jpn
CentOS
$ sudo yum install tesseract
使い方
ベーシックな使い方は以下のようにコマンド叩くだけです。
$ tesseract ***.jpg out-text
日本語で認識させたい時は
$ tesseract ***.jpg out-text -l jpn
どうやらこのモジュールスグレモノで機械学習でどんどん認識率がましていくようです。
この辺は、次回にレポートしたいと思います。
OCRの用途イメージ
・FAXをテキストデータに変換
・スマホで撮影した写真から感光看板などをテキスト化
・本や雑誌などのページを簡単テキスト化(本屋さんでやっちゃダメだよ)
0 件のコメント:
コメントを投稿