「Selenium」の記事 - Crieit

【Ruby/Selenium】v115からChromeDriverの配布元が変わったようなので対応した話

2023-07-29T23:01:28+09:00

こんにちは、しきゆらです。
数年ごとに時たま書いているSeleniumネタ、今回は久々に大きく動かなくなったので調べつつ対応した記録を残しておきます。

webdriversが動かなくなった

これまではwebdriversというgemを使い、インストールされているChromeのバージョンにあったChromeDriver良しなに取得するようにしていました。

GitHub - titusfortner/webdrivers: Keep your Selenium WebDrivers updated automatically

さっくりwebdriversの中身を見てみましたが、インストールしているChromeのバージョンを確認し、必要なDriverがなければ以下のサイトから該当バージョンのものを取得・配置するようです。

「https://chromedriver.storage.googleapis.com/LATEST_RELEASE_114」のようにChromeのバージョン値を指定するとその最新版となるChromeDriverのバージョンを取得できるので、これをもとに取得する感じでした。

ところが、先日Seleniumを動かしたらChromeDriverがない、とエラーが出て動かなくなっていました。
何事かと思って調べてみました。

ChromeDriverの配布先が変わった

ChromeDriverのサイトを見てみると、配布先が変更されたようです。

ChromeDriver - WebDriver for Chrome - Downloads

Latest ChromeDriver Binaries

Starting with M115 the latest Chrome + ChromeDriver releases per release channel (Stable, Beta, Dev, Canary) are available at the Chrome for Testing availability dashboard. For automated version downloading one can use the convenient JSON endpoints.

The older releases can be found at the Downloads page.

ということでwebdriversが参照していたサイトとは別のところで配布するようになったようです。

ついでに調べていると、Chrome for Testingなるものが出てきました。

Chrome for Testing: reliable downloads for browser automation - Chrome Developers

以前も何かのタイミングでちらっと見た気がするんですが、あまり詳しく見てはいなかったので今回読んでみました。

どうやら、Chromeは自動更新なので開発者はテストをするタイミングによって意図しないバージョンになっていたりしてつらい、そうだテスト用に自動更新がないChromeを作ろう、ということのようです。

ということでテスト用Chromeとそのバージョン向けのChromeDriverが以下のサイトで一緒に配布されるようになっていました。

Chrome for Testing availability

自前でChromeDriverを取得するスクリプトを組んでいる場合は、この辺の対応が必要になりそう。

対応方法

暫定対応

webdriversでも対応するPRが上がってますが、記載時点(2023/07/29)ではまだマージされてません。

Fixed Webdrivers::VersionError with chrome version greater than 115 by sadahiro-ono · Pull Request #249 · titusfortner/webdrivers

こちらのissueで対応方法が記載されていました。

Webdrivers trying to load a Chrome version that doesn't exist · Issue #247 · titusfortner/webdrivers

現在はv114向けのChromeDriverでも動くようなので、コード内でChromeDriverのバージョンを決め打ちすることでその場しのぎをすることができます。
ただ、これもこのバージョンで動作しなくなるのは時間の問題なのでいつまで使えるかは不明です。

Webdrivers::Chromedriver.required_version = "114.0.5735.90"

Selenium Manager

issueを見ていくと、Selenium Managerなるものが出てきました。

Selenium Manager (Beta)

まだBetaのようですが、Selenium自体に含まれる各WebDriverの取得などをしてくれるツールのようです。

これまでは、手動で配布サイトから取得したり上記webdriversのような別ツールでWebDriverを取得して使う必要がありましたが、Selenium Managerを使えば外部ツールを使わずにSeleniumだけで完結するようになりますね。

使い方も、以下の3点を満たしていれば勝手に動いてくれるようです。

ServiceクラスでWebDriverのパスを指定していない
webdriversのような外部のWebDriver管理ツールを使っていない
環境変数PATHの中にWebDriverがない

ということで、webdriversが動かないのでこっちを使ってみることにしました。

ここでは、タイトルの通りRuby環境である前提で記載しますが
selenium-webdriverのgemを最新にしたうえで、上記3点を満たすように環境を整えるだけで勝手に使えるようになります。

なお、selenium-webdriverのCHANGELOGを見てみると、4.6.0のころからSelenium Managerへ対応が入っているようです。

手元では、webdriversのみしか使っていないのでこれを削除するだけで利用できました。

webdriversがない状態でSeleniumを使ってブラウザを立ち上げようとするとターミナル上に以下のように記載されてChromeが立ち上がるようになりました。

2023-07-29 20:53:08 WARN Selenium applicable driver not found; attempting to install with Selenium Manager

Selenium Managerが良しなに動いてくれているようです。

これで、対応はおしまいです。

まとめ

今回はSeleniumを使っていたらChromeDriverを取得できずに死んでしまったので、原因を調べつつ対応してみました。

結果としては、外部ツールに頼ることなくSeleniumが擁してくれているSelenium Managerを使うことで無事動くようになりました。

今回は、ここまで。

おわり

puppeteer でファイルをダウンロードするときに、任意のパスと名前で保存する

2021-06-25T03:57:06+09:00

Puppeteer を使ってファイルをダウンロードする際に、任意のパスと名前で保存したい。

残念ながら、現時点ではシンプルな方法は提供されていないようだ。
以下の Issue で何年にもわたって議論されているものの、 「コレ!」 という解決方法は無さそう。
Question: How do I get puppeteer to download a file? · Issue #299 · puppeteer/puppeteer

しかし、この Issue の #issuecomment-668087154 のコメントで、なかなか泥臭い方法で実現するヒントが書かれていた。
これを参考にして、任意のパスと名前でダウンロードファイルを保存してみよう。

実行方法

あらかじめ、 puppeteer の npm パッケージをローカルにインストールしておく。

npm install puppeteer --save

その状態で、後述の .js ファイルを nodejs で実行すれば OK だ。

node puppeteer-download-with-specify-name.js

コードと解説

何をしているのかというと、 GitHub 上の puppeteer のソースコード ZIP ファイルをダウンロードする際に、 Chrome DevTools Protocol を直叩きして、任意のパスとファイル名で保存している。

具体的なポイントは、主に以下の 2点。

Page.setDownloadBehavior メソッドで、ファイルのダウンロードの許可とダウンロード先のディレクトリを指定
Fetch.enable メソッドと Fetch.requestPaused イベントで、ファイルダウンロードのレスポンスに Content-Disposition HTTP ヘッダーを無理やりねじ込む

Content-Disposition HTTP ヘッダーのドキュメントに書かれている通り、 attachment と filename ディレクティブを指定することで、ファイルが（ブラウザ内で表示されるのではなく）ダウンロードが必要であることと、ダウンロード時のファイル名を指定することができる。

但し、 Page.setDownloadBehavior メソッドは実験的で且つ非推奨なので、将来にわたってサポートが続くかどうかはわからない点は、注意だ。
少なくとも、 Chromium 92.0.4512.0 (r884014) では問題なく動いている。

ちなみに、実行する Chromium はヘッドレスモードでもヘッドフルモードでもどちらでも意図通り動くはず。

この方法は Chrome DevTools Protocol に思いっきり依存しているので、 Selenium など他のブラウザ自動化ツールでは同一の方法が難しく (※)、 Puppeteer ならではの方法と言える。
※: Selenium 4.x のプレリリース版を使えば、 Chrome DevTools Protocol にアクセスできるようだが、イベントハンドラを書くのが難しそう？ドキュメントがそろってないのでまだなんとも…

スクレイピング中にファイルをダウンロードする場合などでは、保存先のパスと名前を指定できたほうが良い気がするのだが……
今後の puppeteer や Chrome DevTools Protocol の更新でもっと簡単に実現できるようになることを期待しよう。

【Pythonクローラー入門】SeleniumによるWebクローラーの開発

2021-04-30T13:01:19+09:00

元記事：https://www.octoparse.jp/blog/build-a-web-crawler-with-selenium-and-python/

Webサイトから大量のデータをできるだけ早く取得する必要があるとします。それぞれのWebサイトに手動でアクセスして、コピペでデータを取得することなく、どうやって自動的にデータを取得するのでしょうか？その答えが「Webスクレイピング」です。Webスクレイピングに通じて、この作業を自動化にしてくれます。

今回はPythonでWebサイトからデータをクローニングして、CSVファイルに書き込むというようなWebクローラーを実際に作成してみましょう。

一、必要なPython開発環境を導入

Pythonには、プログラムを組むために便利な標準ライブラリが数多くあります。今回は、以下のライブラリを使用しています。

・Selenium ーーブラウザを自動的に操作するライブラリです。主にWebアプリケーションのテストやWebスクレイピングに利用されます。
・BeautifulSoup ーー HTMLおよびXMLドキュメントを解析するためのPythonパッケージです。
・csv ーー CSVフォーマットで保存するために使用されます。

したがって、プログラミングを実戦する前に、以下の準備が必要となります。

・Python 2.xまたはPython 3.xの環境
・Selenium、BeautifulSoup、csvライブラリの導入
・Google Chrome ブラウザ

それでは、早速始めましょう！

二、ページ要素（HTMLドキュメント）の検証

Webサイトから、要素（HTMLドキュメント）を検証し、データがどのように構成されているかを分析する必要があります。HTML基礎知識はこちらのリンクで参照ください。今回はテーブルのデータを抽出するように試してみましょう。
Ctrl + Shift + I を押して、テーブルの要素を指定すると、HTMLのソースコードに表示されます。

したがって、テーブルの要素名は「table」と分かっています。
なお、Webクローラーを構築するたびに、HTMLドキュメント内の要素を定位するため、xPathの知識が必要となります。xPathのチュートリアルはこちらのリンクからアクセスできます。

三、コードを書く

1.まず、必要なライブラリをすべてインポートしましょう。

import csv # csvモジュールをインポート
from selenium import webdriver # selenium webdriver をインポート
from bs4 import BeautifulSoup # BeautifulSoup をインポート

2.Webdriverを使用する前に、chromedriverへのパスを設定する必要があります。
※/path/to/chromedriverをWebdriverのパスに変更してください。

driver = webdriver.Chrome("/path/to/chromedriver")

3.以下のコードを参照してURLを開いてください。

driver.get("http://test-sites.octoparse.com/?page_id=192")

4.URLを開くためのコードが書けたところで、いよいよWebサイトからデータを抽出します。
先に述べたように、抽出したいデータは要素に入っています。データを持つ要素を探し出し、データを抽出します。以下のコードを参照してください。

content = driver.page_source
BS = BeautifulSoup(content, "html.parser")
table = BS.findAll("table", {"class":"wp-block-table is-style-stripes"})[0] # テーブル"wp-block-table is-style-stripes"を指定
rows = table.findAll("tr") # テーブル中要素の内容を抽出
print(rows) # 抽出したHTMLドキュメントを検証

最後に、web-scraping.pyで保存します。

四、コードを実行してデータを抽出する

コードを実行して、必要なHTMLドキュメントを正しく抽出するかどうかを確認します。

五、データを必要なフォーマットで保存

データを抽出した後、抽出したデータをCSV（Comma Separated Value）形式で保存します。そのため、コードに以下の内容を追加します。

with open("web-scraping.csv", "w", encoding='utf-8', newline="") as file: # ファイル名は「web-scraping.csv」を指定する
    writer = csv.writer(file)
    for row in rows:
        csvRow = []
        for cell in row.findAll(['td', 'th']): # tdとth要素をループでファイルに書き込む
            csvRow.append(cell.get_text())
        writer.writerow(csvRow)

六、Pythonでスクレイピングしましょう

それは最終的なコードです。

追加した後、もう一度コード全体を実行してみてください。
抽出結果は「web-scraping.csv」というファイル名が作成され、このファイルに抽出されたデータが格納されます。

七、Octoparseでスクレイピングする方法

プログラミングが苦手、或いは英語のコードばかりなので苦手意識を持っている方は、スクレイピングツールのOctoparseはおすすめします。

Octoparseは「自動識別」機能があるので、ページのURLを入力するだけで、Webページ上各項目のデータ（テキストとリンクを含む）、「次のページ」ボタン、「もっと見る」ボタン、およびページのスクロールダウンを自動的に検出し、タスク（Webクローラー）を自動的に生成することができます。

早速ですが、Octoparseで自動化の魅力を体験してみましょう。

1.Octoparseを起動して、スクレイピングしたいWebページのURLを入力します。
「抽出開始」ボタンをクリックして進みます。

2.Octoparseでページが読み込みされたら、自動的にページ上の内容を識別します。
自動識別とは、自動的にページ上の必要なデータを検出して識別するという役立つ機能です。ポイント&クリックをする必要はなく、Octoparseは自動的に処理します。

3.識別が完了すると、データプレビューで識別したデータを表示され、確認してから「ワークフローの生成」ボタンを押します。

4.これで簡単にWebクローラーが作成しました！
上の「実行」ボタンをクリックして、すぐデータを抽出できます。簡単ではないでしょうか。

八、まとめ

Pythonでスクレイピングはそんなに簡単ではないので、学ぶ時間がなく、効率的にスクレイピングがしたい、プログラミングが苦手、或いは英語のコードばかりなので苦手意識を持っている方はスクレイピングツールはおすすめです。