「OCR」の記事 - Crieit

PythonでOCRをやろうとしていきなり沼った話

2021-09-04T10:18:02+09:00

Jupyterlab上でPythonを使ってOCRをやろうとしたら沼った話．海外ニキのコメントを検索しながら目的達成．

# ocr_card_filter.py
import os
from PIL import Image
import pyocr
import pyocr.builders

# Installed TesseractのPATH
pyocr.tesseract.TESSERACT_CMD = full path
~~~~
#省略

#OCR
builder = pyocr.builders.TextBuilder()
result = tool.image_to_string(img, lang="jpn", builder=builder)
print(result)

with open("ocr.txt",mode="w") as f:
    f.write(result)

Installed TesseractのPATHが分からず，沼った．

brew list tesseract

これでtesseractが格納されている場所を表示．Jupyter labで上のコードを実行するきは，必ずtesseractのfull pathを書くこと．でないと，tesseractが見つからないって怒られる．

OCRの精度は，調べたところ，色を白黒にしたり，一部分だけ切り取ってやると精度が上がるらしい．

個人的に便利な使い方は，大学院の授業のTAとして出席をカウントする時があったけど，zoomの参加者一覧をスクショして，OCRで出席者を文字起こししたこと．まあ，精度を上げる方法には機械学習とか色々あるらしい．それもいずれ勉強できたらなと思う．

画像認識AI モデル

2021-04-29T11:26:24+09:00

AI OCRは以前から使われている技術ですが、近年、多くの会社が業務の省力化、高速化、生産性工場に貢献できる画像認識AI（人工知能）モデルを研究開発し、OCRなどの技術を活用ししていますが、OCRとは何でしょうか？
「働き方改革」や「ペーパーレス化」、「電子化」が求められる現在のところ、改めてOCRの技術や活用法について確認してみましょう。

OCRとは紙に書かれている文字を認識し、デジタル化する技術
OCRは、Optical Character Reader（またはRecognition）の略で、画像データのテキスト部分を認識し、文字データに変換する光学文字認識機能のことを言います。具体的にいうと、紙文書をスキャナーで読み込み、書かれている文字を認識してデジタル化する技術です。
人間は、紙に書かれている文字を無意識に理解しますが、コンピューターは自動的に読み取ることができません。画像の中に何が映っているのか、コンピューターや機械などが認識する技術です。画像認識の技術は主に物体、顔、文字の認識ができます。文字認識が終わったら、ExcelやWord等で再利用できるように「元の文書と同じ形」での出力できるフォーマットに変換して出力することができます。
OCRが以下のように文字認識をしています：
１．画像取り込み
２．レイアウト解
３．行の切り出し
４．文字の切り出し
５．文字認識
６．フォーマット出力

OCRの利用法の主流は文書の管理とデータ入力
OCRが実際にどんなことに使われているのか、いまひとつ分からないという方もいるかもしれません。ここでは、主な利用用途をご紹介します。

1. データ入力作業の手間を大幅に削減
紙データの入力作業を人が手作業で行っている場合は、OCRの利用すれば、こういった細かい作業は時間がかかるだけでなく、長時間続けているとどうしても入力ミスのリスクが高くなるため、二重のチェックをしなくてはいけないこともあります。OCRであれば、スキャンをすると同時に書類形式で文書が保存できるので、データ入力の手間が半減されます。

2. 保存データの検索性の向上
OCRをかけておけば、テキストデータに変換されることで、キーワードによるデータの検索が可能になるため、書かれている内容のキーワードを検索すれば簡単に必要な書類を見つけたり、文章を引き出したりすることができます。また、OCRで画像データをテキスト化することで、文書ファイルのデータ容量を縮小することができるため、メモリー上の保管スペースを削減できるといったメリットもあります。

3. Word や Excel などの形式に変換することで、紙の書類修正を可能にする
OCR技術の活用法は、契約書などのビジネス文書を書類形式のデータにするというイメージがありますが、ただデータ化するだけではありません。WordやExcel、PowerPointなどのデータに変換できるので、書類の修正も手軽にできるようになります。

AIでさらに進化するOCR

業務効率や働き方改革のツールとして、再度注目されるようになった「OCR」。最近ではAI（人工知能）技術を取り入れた「AI OCR」も登場し、さらに進化を続けています。その名の通り、AIを搭載した「AI OCR」は、仮に最初の文字認識精度が低くても、利用するごとにAIが学習し、精度が上がっていくのが特徴です。さらにクラウドサービス化や業務システムとの連携など、「すぐに業務改革に使えるOCR」としても進化しています。

AI研究開発チャンスを広げます
AIはマーケティング、セキュリティ、旅行、健康など、多様多種なビジネスを再定義する可能性があります。大企業だけでなく、中小企業が参入するチャンスがまだ沢山あります。
生産性を向上させます
繰り返される作業の一部または全部を自動化することにより、作業時間を大幅に短縮します。精度をどんどん改善させることで、日常業務のヒューマンエラーを減少します。

TesseractをUbuntu（Docker）で試してみる

2021-04-05T20:50:12+09:00

DockerでJupyterLab環境で構築し、その中でTesseractを使って画像から文字を抽出する。

DockerでJupyter Lab環境を構築

Dockerfileを作る

任意のフォルダにDockerfileという名前のファイルを作成する。

$ mkdir ~/Desktop/docker_build
$ cd Desktop/docker_build/
$ touch Dockerfile

Dockerfileの中身

FROM ubuntu:latest

# update
RUN apt-get -y update && apt-get install -y \
sudo \
wget \
vim

#install anaconda3
WORKDIR /opt
# download anaconda package and install anaconda
# archive -> https://repo.continuum.io/archive/
RUN wget https://repo.continuum.io/archive/Anaconda3-2019.10-Linux-x86_64.sh && \
sh /opt/Anaconda3-2019.10-Linux-x86_64.sh -b -p /opt/anaconda3 && \
rm -f Anaconda3-2019.10-Linux-x86_64.sh
# set path
ENV PATH /opt/anaconda3/bin:$PATH

# update pip and conda
RUN pip install --upgrade pip

WORKDIR /
RUN mkdir /work

# execute jupyterlab as a default command
CMD ["jupyter", "lab", "--ip=0.0.0.0", "--allow-root", "--LabApp.token=''"]

Dockerをビルド

$ docker build .
Successfully built d723190a8650

Dockerを起動

$ docker run -p 8888:8888 -v ~/Desktop/ds_python:/work --name my-lab d723190a8650

ブラウザからlocalhost:8888にアクセスしてJupyter Labに入る。

Docker上でTesseract

Tesseractインストール

ターミナル起動

workディレクトリをクリック
File -> New -> Terminal

本体インストール

インストール途中で、ロケーションとタイムゾーンを聞かれるので、Asia、Tokyoを選択

$ sudo apt-get update
$ sudo apt install tesseract-ocr
$ sudo apt install libtesseract-dev

バージョン確認

$ tesseract -v
tesseract 4.1.0-rc1-184-g497d
 leptonica-1.75.3
  libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.5.2) : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.3.0

 Found AVX2
 Found AVX
 Found SSE

訓練済みモジュールインストール

sudo apt install tesseract-ocr-jpn  tesseract-ocr-jpn-vert
sudo apt install tesseract-ocr-script-jpan tesseract-ocr-script-jpan-vert

モジュールがインストールされたか確認

$ tesseract --list-langs
List of available languages (6):
Japanese
Japanese_vert
eng
jpn
jpn_vert
osd

Tesseract実行

第一引数は画像の名前、第二引数はOCRの結果を出力するファイル名。デフォルトで.txt拡張子が付く。

$ tesseract image.png ocr_out -l jpn

PythonでTesseract実行

pytesseractインストール

pip install pytesseract

pytesseract実行

import Image
import pytesseract

FILE_NAME = './image.jpg'

print(pytesseract.image_to_string(Image.open(FILE_NAME), lang=('jpn'))

おまけ

OpenCVでグレースケール変換

OpenCVインストール

$ pip install opencv-python
$ apt-get install -y libgl1-mesa-dev

グレースケール変換

import cv2

im = cv2.imread('./image.jpeg')
im_gray = cv2.cvtColor(im, cv2.COLOR_BGR2GRAY)
cv2.imwrite('./image_gray.jpeg', im_gray)
print(pytesseract.image_to_string(Image.open('./image_gray.jpeg'), lang='jpn'))