skybee8の投稿 - Crieit

KeyBERTでキーフレーズ抽出を試してみる

2021-04-15T21:19:45+09:00

最近キーフレーズ抽出に興味がありいろいろと調べていたら、BERT版のキーフレーズ抽出パッケージがあったので試してみた。ちなみにキーフレーズ抽出とは、「文章からその主題を良く表現している句を抽出する技術」のこと。
環境は、Docker for Mac を想定。

環境設定

Docker for Macのメモリ制限解放

DecktopにあるPreference -> Advance でMemoryの上限を調整する。KeyBERTをインストールするとPytorchをインストールしようとするが、Dockerのデフォルト設定のままだとメモリ不足でインストールに失敗する。なので、設定を変更してメモリ制限を解除する。今回は12Gに設定した。

KeyBERTのインストール

pip install keybert

MeCabのインストール

KeyBERTは日本語の分かち書きに対応していないため、MeCabを利用する。

pip install mecab-python3
pip install unidic-lite

コード

今回は、Wikipediaのディズニーランドの記事を使ってみる。

from keybert import KeyBERT
import MeCab

doc1 = """
東京ディズニーランド（とうきょうディズニーランド、英称：Tokyo Disneyland、略称：TDL）は、
千葉県浦安市舞浜にあるディズニーリゾートを形成する日本のディズニーパーク。
年間来場者数は日本最大の約1,800万人で、世界のテーマパーク・アミューズメントパークの中でも、
フロリダ州のウォルト・ディズニー・ワールド・リゾートのマジック・キングダム、カリフォルニア州の
ディズニーランド・リゾートのディズニーランド・パークに次いで世界3位の規模を誇る[1]。
オリエンタルランドがウォルト・ディズニー・カンパニーとのライセンス契約のもと運営している[3]。
"""

# MeCabで分かち書き
words = MeCab.Tagger("-Owakati").parse(doc1)

model = KeyBERT('distilbert-base-nli-mean-tokens')

print(model.extract_keywords(words, top_n = 10, keyphrase_ngram_range=(1, 1)))

結果

キーフレーズとして「ディズニーランド」が上位に上がってくると思いきや、結果は8番目だった。

[('アミューズメント', 0.5486), 
('オリエンタル', 0.534), 
('ライセンス', 0.5144), 
('マジック', 0.4829),
('キングダム', 0.4651), 
('フロリダ', 0.4469),
('カンパニー', 0.44),
('日本', 0.4295), 
('ディズニー', 0.4252), 
('ランド', 0.4068)]

ちょっとだけ追加検証

ちなみに、下記の文章（概要の部分）を追加するとどうなるかというと。。。

doc2 = """
誘致当時の経緯から東京ディズニーシーと共に米国ディズニーグループによる直営ではなく、
日本企業の 株式会社オリエンタルランド が米国ディズニーからのライセンス契約により運営している。
なお、東京ディズニーリゾートで販売されているキャラクターの著作権や版権ビジネスはすべてウォルト・ディズニー・ジャパンが、
アトラクションやショーの企画に関しては、米国ディズニー・パークス・エクスペリエンス・プロダクツおよび米
国ディズニーの子会社であるウォルト・ディズニー・アトラクションズ・ジャパンが担当している。
"""

結果2

「ディズニー」が消えてしまった。「エクスペリエンス」って1回して出てきていないんだけど。。

[('エクスペリエンス', 0.5799), 
('アトラクション', 0.5603), 
('アミューズメント', 0.5486), 
('オリエンタル', 0.534), 
('キャラクター', 0.5154), 
('ライセンス', 0.5144), 
('プロダクツ', 0.494), 
('マジック', 0.4829), 
('ジャパン', 0.4752), 
('キングダム', 0.4651)]

TesseractをUbuntu（Docker）で試してみる

2021-04-05T20:50:12+09:00

DockerでJupyterLab環境で構築し、その中でTesseractを使って画像から文字を抽出する。

DockerでJupyter Lab環境を構築

Dockerfileを作る

任意のフォルダにDockerfileという名前のファイルを作成する。

$ mkdir ~/Desktop/docker_build
$ cd Desktop/docker_build/
$ touch Dockerfile

Dockerfileの中身

FROM ubuntu:latest

# update
RUN apt-get -y update && apt-get install -y \
sudo \
wget \
vim

#install anaconda3
WORKDIR /opt
# download anaconda package and install anaconda
# archive -> https://repo.continuum.io/archive/
RUN wget https://repo.continuum.io/archive/Anaconda3-2019.10-Linux-x86_64.sh && \
sh /opt/Anaconda3-2019.10-Linux-x86_64.sh -b -p /opt/anaconda3 && \
rm -f Anaconda3-2019.10-Linux-x86_64.sh
# set path
ENV PATH /opt/anaconda3/bin:$PATH

# update pip and conda
RUN pip install --upgrade pip

WORKDIR /
RUN mkdir /work

# execute jupyterlab as a default command
CMD ["jupyter", "lab", "--ip=0.0.0.0", "--allow-root", "--LabApp.token=''"]

Dockerをビルド

$ docker build .
Successfully built d723190a8650

Dockerを起動

$ docker run -p 8888:8888 -v ~/Desktop/ds_python:/work --name my-lab d723190a8650

ブラウザからlocalhost:8888にアクセスしてJupyter Labに入る。

Docker上でTesseract

Tesseractインストール

ターミナル起動

workディレクトリをクリック
File -> New -> Terminal

本体インストール

インストール途中で、ロケーションとタイムゾーンを聞かれるので、Asia、Tokyoを選択

$ sudo apt-get update
$ sudo apt install tesseract-ocr
$ sudo apt install libtesseract-dev

バージョン確認

$ tesseract -v
tesseract 4.1.0-rc1-184-g497d
 leptonica-1.75.3
  libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.5.2) : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.3.0

 Found AVX2
 Found AVX
 Found SSE

訓練済みモジュールインストール

sudo apt install tesseract-ocr-jpn  tesseract-ocr-jpn-vert
sudo apt install tesseract-ocr-script-jpan tesseract-ocr-script-jpan-vert

モジュールがインストールされたか確認

$ tesseract --list-langs
List of available languages (6):
Japanese
Japanese_vert
eng
jpn
jpn_vert
osd

Tesseract実行

第一引数は画像の名前、第二引数はOCRの結果を出力するファイル名。デフォルトで.txt拡張子が付く。

$ tesseract image.png ocr_out -l jpn

PythonでTesseract実行

pytesseractインストール

pip install pytesseract

pytesseract実行

import Image
import pytesseract

FILE_NAME = './image.jpg'

print(pytesseract.image_to_string(Image.open(FILE_NAME), lang=('jpn'))

おまけ

OpenCVでグレースケール変換

OpenCVインストール

$ pip install opencv-python
$ apt-get install -y libgl1-mesa-dev

グレースケール変換

import cv2

im = cv2.imread('./image.jpeg')
im_gray = cv2.cvtColor(im, cv2.COLOR_BGR2GRAY)
cv2.imwrite('./image_gray.jpeg', im_gray)
print(pytesseract.image_to_string(Image.open('./image_gray.jpeg'), lang='jpn'))

MMRアルゴリズムをPysparkで実装する

2021-04-05T16:27:16+09:00

レコメンド結果にMMRを適用して多様性を考慮したかった。
以下のようにPythonで実装されているコードはあったが、Pysparkで実装れているサンプルがなかったので実装してみた。

MMR実装を参考にしたページ

実装コード

モジュールインポート

from pyspark.sql import DataFrame as SDF
from typing import Set, Callable, List
import pyspark.sql.functions as F

検索クエリとアイテムリストの類似度結果を取得する関数

def sim_func(df: SDF, item_id: int, rec_item_id: int) -> float:
    min_score = df.filter(F.col('item_id') == item_id).groupBy().min('score').collect()[0][0]
    try:
        score = df.filter((F.col('item_id') == item_id) & (F.col('rec_item_id') == rec_item_id)).collect()[0]['score']
    except:
        score = min_score
   return score

選択済みアイテムがオリジナルのアイテムと同じ集合になるまでLOOP

def mmr(df: SDF, items: Set[int], item_id: int, lambda_: float, sim_func1: Callable[[SDF, int, int], float], sim_func2: Callable[[SDF, int, int]) -> List[int]:
    def _argmax(keys, f):
        return max(keys, key=f)

    selected = []
    while set(selected) != items:
        remaining = items - set(selected)
        mmr_score = lambda x: labmda_ * sim_func1(df, item_id, x) - (1 - lambda_) * max([sim_func2(df, x, y) for y in set(selected)-{x}] or [0])
        next_selected = _argmax(remaining, mmr_score)
        selected.append(next_selected)
    return selected

MMR実行

mmr(
    df, 
    set(list(df.filter(F.col('item_id') == 12345678).select('rec_item_id').toPandas()['rec_item_id'])),
    12345678,
    0.8,
    sim_func,
    sim_func
)