tag:crieit.net,2005:https://crieit.net/users/ttfmoon/feed 🚀🐶CZ投資ちゃんねる🐶🌕の投稿 - Crieit Crieitでユーザー🚀🐶CZ投資ちゃんねる🐶🌕による最近の投稿 2022-02-03T16:48:31+09:00 https://crieit.net/users/ttfmoon/feed tag:crieit.net,2005:PublicArticle/17632 2021-09-04T10:18:02+09:00 2022-02-03T16:48:31+09:00 https://crieit.net/posts/Python-OCR PythonでOCRをやろうとしていきなり沼った話 <p>Jupyterlab上でPythonを使ってOCRをやろうとしたら沼った話.海外ニキのコメントを検索しながら目的達成.</p> <pre><code class="python"># ocr_card_filter.py import os from PIL import Image import pyocr import pyocr.builders # Installed TesseractのPATH pyocr.tesseract.TESSERACT_CMD = full path ~~~~ #省略 #OCR builder = pyocr.builders.TextBuilder() result = tool.image_to_string(img, lang="jpn", builder=builder) print(result) with open("ocr.txt",mode="w") as f: f.write(result) </code></pre> <p>Installed TesseractのPATHが分からず,沼った.</p> <pre><code>brew list tesseract </code></pre> <p>これでtesseractが格納されている場所を表示.Jupyter labで上のコードを実行するきは,<strong>必ずtesseractのfull pathを書く</strong>こと.でないと,tesseractが見つからないって怒られる.</p> <p>OCRの精度は,調べたところ,色を白黒にしたり,一部分だけ切り取ってやると精度が上がるらしい.</p> <p>個人的に便利な使い方は,大学院の授業のTAとして出席をカウントする時があったけど,zoomの参加者一覧をスクショして,OCRで出席者を文字起こししたこと.まあ,精度を上げる方法には機械学習とか色々あるらしい.それもいずれ勉強できたらなと思う.</p> 🚀🐶CZ投資ちゃんねる🐶🌕