tag:crieit.net,2005:https://crieit.net/users/Octoparse_Japan/feed Octoparse Japanの投稿 - Crieit CrieitでユーザーOctoparse Japanによる最近の投稿 2021-05-20T18:40:12+09:00 https://crieit.net/users/Octoparse_Japan/feed tag:crieit.net,2005:PublicArticle/17040 2021-04-30T13:01:19+09:00 2021-05-20T18:40:12+09:00 https://crieit.net/posts/Python-Selenium-Web 【Pythonクローラー入門】SeleniumによるWebクローラーの開発 <p><a href="https://crieit.now.sh/upload_images/64b1ef6363c1052be6d7ddf2ea00ee8d608b8095e7517.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/64b1ef6363c1052be6d7ddf2ea00ee8d608b8095e7517.png?mw=700" alt="image" /></a><br /> 元記事:<a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/build-a-web-crawler-with-selenium-and-python/">https://www.octoparse.jp/blog/build-a-web-crawler-with-selenium-and-python/</a></p> <p>Webサイトから大量のデータをできるだけ早く取得する必要があるとします。それぞれのWebサイトに手動でアクセスして、コピペでデータを取得することなく、どうやって自動的にデータを取得するのでしょうか?その答えが「<a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/web-scraping/">Webスクレイピング</a>」です。Webスクレイピングに通じて、この作業を自動化にしてくれます。</p> <p>今回はPythonでWebサイトからデータをクローニングして、CSVファイルに書き込むというようなWebクローラーを実際に作成してみましょう。</p> <h1 id="一、必要なPython開発環境を導入"><a href="#%E4%B8%80%E3%80%81%E5%BF%85%E8%A6%81%E3%81%AAPython%E9%96%8B%E7%99%BA%E7%92%B0%E5%A2%83%E3%82%92%E5%B0%8E%E5%85%A5">一、必要なPython開発環境を導入</a></h1> <p>Pythonには、プログラムを組むために便利な標準ライブラリが数多くあります。今回は、以下のライブラリを使用しています。</p> <p>・<strong>Selenium</strong> ーー ブラウザを自動的に操作するライブラリです。主にWebアプリケーションのテストやWebスクレイピングに利用されます。<br /> ・<strong>BeautifulSoup</strong> ーー HTMLおよびXMLドキュメントを解析するためのPythonパッケージです。<br /> ・<strong>csv</strong> ーー CSVフォーマットで保存するために使用されます。</p> <p>したがって、プログラミングを実戦する前に、以下の準備が必要となります。</p> <p>・Python 2.xまたはPython 3.xの環境<br /> ・Selenium、BeautifulSoup、csvライブラリの導入<br /> ・Google Chrome ブラウザ</p> <p>それでは、早速始めましょう!</p> <h1 id="二、ページ要素(HTMLドキュメント)の検証"><a href="#%E4%BA%8C%E3%80%81%E3%83%9A%E3%83%BC%E3%82%B8%E8%A6%81%E7%B4%A0%EF%BC%88HTML%E3%83%89%E3%82%AD%E3%83%A5%E3%83%A1%E3%83%B3%E3%83%88%EF%BC%89%E3%81%AE%E6%A4%9C%E8%A8%BC">二、ページ要素(HTMLドキュメント)の検証</a></h1> <p>Webサイトから、要素(HTMLドキュメント)を検証し、データがどのように構成されているかを分析する必要があります。HTML基礎知識は<a target="_blank" rel="nofollow noopener" href="https://developer.mozilla.org/ja/docs/Learn/Getting_started_with_the_web/HTML_basics">こちらのリンク</a>で参照ください。今回はテーブルのデータを抽出するように試してみましょう。<br /> Ctrl + Shift + I を押して、テーブルの要素を指定すると、HTMLのソースコードに表示されます。<br /> <a href="https://crieit.now.sh/upload_images/12a12d2aa25da2bf82cbb073bf1f7083608b809f6da2a.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/12a12d2aa25da2bf82cbb073bf1f7083608b809f6da2a.png?mw=700" alt="image" /></a></p> <p>したがって、テーブルの要素名は「table」と分かっています。<br /> なお、Webクローラーを構築するたびに、HTMLドキュメント内の要素を定位するため、xPathの知識が必要となります。xPathのチュートリアルはこちらのリンクからアクセスできます。</p> <h1 id="三、コードを書く"><a href="#%E4%B8%89%E3%80%81%E3%82%B3%E3%83%BC%E3%83%89%E3%82%92%E6%9B%B8%E3%81%8F">三、コードを書く</a></h1> <p><strong>1.まず、必要なライブラリをすべてインポートしましょう。</strong></p> <pre><code>import csv # csvモジュールをインポート from selenium import webdriver # selenium webdriver をインポート from bs4 import BeautifulSoup # BeautifulSoup をインポート </code></pre> <p><strong>2.Webdriverを使用する前に、chromedriverへのパスを設定する必要があります。</strong><br /> ※/path/to/chromedriverをWebdriverのパスに変更してください。</p> <pre><code>driver = webdriver.Chrome("/path/to/chromedriver") </code></pre> <p><strong>3.以下のコードを参照してURLを開いてください。</strong></p> <pre><code>driver.get("http://test-sites.octoparse.com/?page_id=192") </code></pre> <p><strong>4.URLを開くためのコードが書けたところで、いよいよWebサイトからデータを抽出します。</strong><br /> 先に述べたように、抽出したいデータは要素に入っています。データを持つ要素を探し出し、データを抽出します。<strong>以下のコードを参照してください。</strong></p> <pre><code>content = driver.page_source BS = BeautifulSoup(content, "html.parser") table = BS.findAll("table", {"class":"wp-block-table is-style-stripes"})[0] # テーブル"wp-block-table is-style-stripes"を指定 rows = table.findAll("tr") # テーブル中<tr>要素の内容を抽出 print(rows) # 抽出したHTMLドキュメントを検証 </code></pre> <p>最後に、web-scraping.pyで保存します。</p> <h1 id="四、コードを実行してデータを抽出する"><a href="#%E5%9B%9B%E3%80%81%E3%82%B3%E3%83%BC%E3%83%89%E3%82%92%E5%AE%9F%E8%A1%8C%E3%81%97%E3%81%A6%E3%83%87%E3%83%BC%E3%82%BF%E3%82%92%E6%8A%BD%E5%87%BA%E3%81%99%E3%82%8B">四、コードを実行してデータを抽出する</a></h1> <p>コードを実行して、必要なHTMLドキュメントを正しく抽出するかどうかを確認します。<br /> <a href="https://crieit.now.sh/upload_images/211873892ff67468d049cd39ce71f207608b80a981301.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/211873892ff67468d049cd39ce71f207608b80a981301.png?mw=700" alt="image" /></a></p> <h1 id="五、データを必要なフォーマットで保存"><a href="#%E4%BA%94%E3%80%81%E3%83%87%E3%83%BC%E3%82%BF%E3%82%92%E5%BF%85%E8%A6%81%E3%81%AA%E3%83%95%E3%82%A9%E3%83%BC%E3%83%9E%E3%83%83%E3%83%88%E3%81%A7%E4%BF%9D%E5%AD%98">五、データを必要なフォーマットで保存</a></h1> <p>データを抽出した後、抽出したデータをCSV(Comma Separated Value)形式で保存します。そのため、コードに以下の内容を追加します。</p> <pre><code>with open("web-scraping.csv", "w", encoding='utf-8', newline=""​) as file: # ファイル名は「web-scraping.csv」を指定する writer = csv.writer(file) for row in rows: csvRow = [] for cell in row.findAll(['td', 'th']): # tdとth要素をループでファイルに書き込む csvRow.append(cell.get_text()) writer.writerow(csvRow) </code></pre> <h1 id="六、Pythonでスクレイピングしましょう"><a href="#%E5%85%AD%E3%80%81Python%E3%81%A7%E3%82%B9%E3%82%AF%E3%83%AC%E3%82%A4%E3%83%94%E3%83%B3%E3%82%B0%E3%81%97%E3%81%BE%E3%81%97%E3%82%87%E3%81%86">六、Pythonでスクレイピングしましょう</a></h1> <p>それは最終的なコードです。<br /> <a href="https://crieit.now.sh/upload_images/6d4e115c349fd675f94d3a069e648ed7608b80b39d9a9.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/6d4e115c349fd675f94d3a069e648ed7608b80b39d9a9.png?mw=700" alt="image" /></a></p> <p>追加した後、もう一度コード全体を実行してみてください。<br /> 抽出結果は「web-scraping.csv」というファイル名が作成され、このファイルに抽出されたデータが格納されます。<br /> <a href="https://crieit.now.sh/upload_images/7624ebafe7878a60c34a479e3962e454608b80ba7ff29.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/7624ebafe7878a60c34a479e3962e454608b80ba7ff29.png?mw=700" alt="image" /></a></p> <h1 id="七、Octoparseでスクレイピングする方法"><a href="#%E4%B8%83%E3%80%81Octoparse%E3%81%A7%E3%82%B9%E3%82%AF%E3%83%AC%E3%82%A4%E3%83%94%E3%83%B3%E3%82%B0%E3%81%99%E3%82%8B%E6%96%B9%E6%B3%95">七、Octoparseでスクレイピングする方法</a></h1> <p>プログラミングが苦手、或いは英語のコードばかりなので苦手意識を持っている方は、スクレイピングツールの<a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/">Octoparse</a>はおすすめします。</p> <p>Octoparseは「<a target="_blank" rel="nofollow noopener" href="https://helpcenter.octoparse.jp/hc/ja/articles/360013561999-Octoparse%E3%82%92%E3%82%82%E3%81%A3%E3%81%A8%E7%9F%A5%E3%82%8B-">自動識別</a>」機能があるので、ページのURLを入力するだけで、Webページ上各項目のデータ(テキストとリンクを含む)、「次のページ」ボタン、「もっと見る」ボタン、およびページのスクロールダウンを自動的に検出し、タスク(Webクローラー)を自動的に生成することができます。</p> <p>早速ですが、Octoparseで自動化の魅力を体験してみましょう。</p> <p><strong>1.Octoparseを起動して、スクレイピングしたいWebページのURLを入力します。</strong><br /> 「抽出開始」 ボタンをクリックして進みます。<br /> <a href="https://crieit.now.sh/upload_images/761e0a72882545802c97a7319feeeef1608b80ce09f4e.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/761e0a72882545802c97a7319feeeef1608b80ce09f4e.png?mw=700" alt="image" /></a></p> <p><strong>2.Octoparseでページが読み込みされたら、自動的にページ上の内容を識別します。</strong><br /> 自動識別とは、自動的にページ上の必要なデータを検出して識別するという役立つ機能です。ポイント&クリックをする必要はなく、Octoparseは自動的に処理します。<br /> <a href="https://crieit.now.sh/upload_images/2359f12975aa9a679363209c1c928c6b608b80d53c5a8.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/2359f12975aa9a679363209c1c928c6b608b80d53c5a8.png?mw=700" alt="image" /></a></p> <p><strong>3.識別が完了すると、データプレビューで識別したデータを表示され、確認してから「ワークフローの生成」ボタンを押します。</strong><br /> <a href="https://crieit.now.sh/upload_images/95661bba8fe25a46fc835456536461a8608b80ddddf58.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/95661bba8fe25a46fc835456536461a8608b80ddddf58.png?mw=700" alt="image" /></a></p> <p><strong>4.これで簡単にWebクローラーが作成しました!</strong><br /> 上の「実行」ボタンをクリックして、すぐデータを抽出できます。簡単ではないでしょうか。<br /> <a href="https://crieit.now.sh/upload_images/b0b0d3e60908ec44ecfc6aa732366d03608b80e4e4719.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/b0b0d3e60908ec44ecfc6aa732366d03608b80e4e4719.png?mw=700" alt="image" /></a></p> <h1 id="八、まとめ"><a href="#%E5%85%AB%E3%80%81%E3%81%BE%E3%81%A8%E3%82%81">八、まとめ</a></h1> <p>Pythonでスクレイピングはそんなに簡単ではないので、学ぶ時間がなく、効率的にスクレイピングがしたい、プログラミングが苦手、或いは英語のコードばかりなので苦手意識を持っている方は<a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/the-10-best-web-scraping-tools/">スクレイピングツール</a>はおすすめです。</p> <p><a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/?utm_source=8952&utm_medium=pic&utm_campaign=qitta"><a href="https://crieit.now.sh/upload_images/9211be13dbf84c6b98b0da0ecbffb784608b80f4e4c8b.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/9211be13dbf84c6b98b0da0ecbffb784608b80f4e4c8b.png?mw=700" alt="image" /></a></a></p> <p><strong>関連記事</strong><br /> <a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/creating-a-simple-web-crawler-in-php/">PHPで簡単なWebクローラーを作ってみた</a><br /> <a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/web-scraping-using-python/">PythonによるWebスクレイピングを解説</a><br /> <a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/web-scraping-using-python-vs-web-scraping-tool/">Python vs Octoparse!初心者向きのスクレイピング方法はどっち?</a><br /> <a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/intro-to-web-scraping-with-excel-vba/">【初心者向け】ExcelとVBAでWebスクレイピング実戦!</a>!</p> Octoparse Japan tag:crieit.net,2005:PublicArticle/16842 2021-04-13T20:21:49+09:00 2021-04-13T20:22:33+09:00 https://crieit.net/posts/SEO 【SEO対策】アクセス数を倍増させる!良質な被リンクの増やす方法 <p><a href="https://crieit.now.sh/upload_images/831047c2616a05fc610052d2e2a6def660757e62aba71.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/831047c2616a05fc610052d2e2a6def660757e62aba71.png?mw=700" alt="image" /></a><br /> 元記事:<a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/how-to-write-articles-that-can-attract-the-most-backlinks/">https://www.octoparse.jp/blog/how-to-write-articles-that-can-attract-the-most-backlinks/</a></p> <p><a target="_blank" rel="nofollow noopener" href="https://digital-marketing.jp/seo/what-is-link-building/">リンクビルディング</a>とは、他のWebサイトから自分のサイトに対して被リンクを獲得することです。被リンクはSEO対策では決定的な部分です。しかし、2019年5月16日に「<a target="_blank" rel="nofollow noopener" href="https://www.sakurasaku-labo.jp/blogs/genenral_guidelines">Page Quality Raters Guidelines</a> (Webページ品質評価ガイドライン)」が登場したことで、被リンクの効果的な作ることが難しくなっています。<br /> 被リンクとは、「良質な被リンク」(ナチュラルリンク)と「悪質な被リンク」(スパムリンク)があります。良質な被リンクは自然に獲得した被リンクのことです。悪質な被リンクは、SEO効果がないどころかGoogleなどの検索エンジンから罰の対象になるというケースもあります。<br /> それだけでなく、被リンクは、単純に「リンク」ではなく、Webページの品質基準を満たし、ユーザーがWebサイトを閲覧する際の体験を向上させる対応策も実施する必要となります。<br /> ここでは、初心者に向けて<strong>良質な被リンクを獲得して、アクセス数とSEO効果を倍増させる</strong>いくつかの方法とコツを紹介します。</p> <h1 id="1. 独自のデータ分析を行うこと"><a href="#1.+%E7%8B%AC%E8%87%AA%E3%81%AE%E3%83%87%E3%83%BC%E3%82%BF%E5%88%86%E6%9E%90%E3%82%92%E8%A1%8C%E3%81%86%E3%81%93%E3%81%A8">1. 独自のデータ分析を行うこと</a></h1> <p><strong>根拠のないデータでは、読者からの信頼を得ることは非常に難しいです。</strong>人々は、データに裏付けられた証拠のあるコンテンツに賛成すれば、共有する傾向もあります。例として、この記事は読者に役立つデータや深い分析レポートを提供している記事であれば、人々は記事のリンクをTwitterやFacebookなどのSNSを通じてコンテンツを拡散して、より多くの人に興味をもってもらいやすくなります。</p> <h1 id="2. 「情報源」になること"><a href="#2.+%E3%80%8C%E6%83%85%E5%A0%B1%E6%BA%90%E3%80%8D%E3%81%AB%E3%81%AA%E3%82%8B%E3%81%93%E3%81%A8">2. 「情報源」になること</a></h1> <p><strong>自分で調べて、自分のアイデアを裏付けるのに必要なデータを集めてください。</strong>その分、作業量が増えることになるかもしれません。しかし、データが明確に示され、議論が人々にインスピレーションを与える限り、長い目で見れば、その価値は多く被リンクを獲得することができます。他の人が興味を持ったり、自分の創造に良いものを書きます。そして、<strong>他人のニーズに応えることで、被リンクを獲得しているのです。</strong></p> <p>「<a target="_blank" rel="nofollow noopener" href="https://towardsdatascience.com/how-data-analysis-helps-unveil-the-truth-of-coronavirus-8430de107ba4">How data analysis helps unveil the truth of coronavirus</a>(コロナウイルスの真実をデータ解析で解明する方法)」という記事が良い例です。この記事は、数ヶ月のうちに数百の被リンクを獲得しました。それ自体が話題を呼ぶ効果があるのはもちろんですが、大切なのは、<strong>自分でデータを取集・分析して</strong>、その状況をもっと知りたい人たちに向けて発表しました。</p> <p><a href="https://crieit.now.sh/upload_images/42df259810a60e3312953788ea50517c60757e70378d8.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/42df259810a60e3312953788ea50517c60757e70378d8.png?mw=700" alt="image" /></a><br /> (Tableauデータ可視化結果)<br /> 詳細:<a target="_blank" rel="nofollow noopener" href="https://public.tableau.com/profile/ashley.han8603#!/vizhome/CoronavirusDataTrend_Octoparse/ProvinceDash?publish=yes">https://public.tableau.com/profile/ashley.han8603#!/vizhome/CoronavirusDataTrend_Octoparse/ProvinceDash?publish=yes</a></p> <p>誰でも既存のレポートや分析結果に満足することはありません。最新のデータを取集して既存のレポートを更新したり、既存のデータを新しい視点で提示したりします。もしノンコーダーなら、大量のWebデータを一度に入手するために、プログラミング不要(ノーコード)の<a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/the-10-best-web-scraping-tools/">Webスクレイピングツール</a>を使うことをお勧めします。<strong>Webスクレイピングのテクニックを身につけてください。これが研究のデータ分析に対して役に立ちます。</strong></p> <p><a href="https://crieit.now.sh/upload_images/9211be13dbf84c6b98b0da0ecbffb78460757e9fb20c7.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/9211be13dbf84c6b98b0da0ecbffb78460757e9fb20c7.png?mw=700" alt="image" /></a><br /> <a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/?utm_source=8919&utm_medium=pic&utm_campaign=crieit">無料トライアルはこちら!</a></p> <p>データを取集する時、新たな悩みが出てくるかもしれません。高度なデータ分析に長けた経験豊富な著者として、複雑な研究課題に取り組むことを求められているだけではなく、良い視点を選んで、根拠をもって詳しく説明し、情報源になるために頑張りましょう。</p> <p>それだけではありません。自分のレポートの情報源になるだけでなく、先行する研究者の分析結果を参考にすることもできます。権威あるサイトに被リンクすることで、自分のサイトの検索順位に良い影響を与えます。要するに、良い文章を書きましょう。</p> <h1 id="3. 情報を分かりやすく視覚的になること"><a href="#3.+%E6%83%85%E5%A0%B1%E3%82%92%E5%88%86%E3%81%8B%E3%82%8A%E3%82%84%E3%81%99%E3%81%8F%E8%A6%96%E8%A6%9A%E7%9A%84%E3%81%AB%E3%81%AA%E3%82%8B%E3%81%93%E3%81%A8">3. 情報を分かりやすく視覚的になること</a></h1> <p>インフォグラフィック(視覚情報化)であることは、読みやすくなります。読者に記事を読んでもらえないのであれば、どんなに価値のある洞察に満ちたアイデアであっても、執筆から編集までの一連の作業の意味がありません。</p> <p>データだらけは退屈です。<strong>読み方が理解しやすいように、データを視覚化してみましょう。</strong>人間は視覚に強く依存する生き物です。視覚的に表現するというグラフィック情報は、テキストよりも人々に伝えやすくなります。</p> <p>同じグループの人たちに向けて、同じトピックについて書いているコンテンツ著者がたくさんいますので、記事の一部の内容を人に興味を持ってくれたら、より多くの閲覧数を獲得することができます。<strong>この記事が他の著者の参考になれば、より多くの被リンクを獲得できます。</strong></p> <p>したがって、画像グラフにロゴやキーワードを入れるべきなのです。そして、被リンクことはあっても、ロゴが消された状態で、宣伝効果になるかもしれません。</p> <p>ビジュアルデザイナーの方は、データ視覚化になるため、<a target="_blank" rel="nofollow noopener" href="https://www.visme.co/">Visme</a>、或いは<a target="_blank" rel="nofollow noopener" href="https://www.adobe.com/creativecloud/design.html">Adobeのツール</a>をぜひ試してみてください。</p> <h1 id="4. 上手な見出しの書くこと"><a href="#4.+%E4%B8%8A%E6%89%8B%E3%81%AA%E8%A6%8B%E5%87%BA%E3%81%97%E3%81%AE%E6%9B%B8%E3%81%8F%E3%81%93%E3%81%A8">4. 上手な見出しの書くこと</a></h1> <p>多くの人は見出しを見て、この文章を読むかを決めています。<br /> 例として、「コンテンツマーケティング事例から見る!成功の秘訣」という見出しは、人はクリックしてしまう。原因としては、「成功」、「秘訣」という言葉は、<strong>人々の想像力を刺激し、すぐにドーパミンが作用し始めます。</strong>もしコンテンツマーケティングを始めたばかりであれば、この見出しは訴求ポイントによってユーザーは行動を起こします。</p> <p>見出しはとてもシンプルで些細なことのように見えますが、多くの人は見落としてしまいます。普段は、ただクリックするだけで、その後にあるメカニズムを考えないような時もあります。見出しの書き方についてはもっと学ぶ必要があると思っています。</p> <p>新しい記事に対して、魔法のような見出しを作るには、<strong>Googleで検索して、上位に表示されている見出しを分析してから書きます。</strong>重要度の高いサイトについては、メインコンテンツを書き終えた後、関連するキーワードをリストアップし、上位にランキングされている記事の見出しをWeb上からかき集めて、それを分析します。</p> <p>良い検索順位を得ると、被リンクを増やすことができ、SEO効果も倍増させます。</p> <h1 id="5. まとめ"><a href="#5.+%E3%81%BE%E3%81%A8%E3%82%81">5. まとめ</a></h1> <p>簡単に言えば、方法は以下になります。<br /> ・価値あるデータの<strong>発信者</strong>となる<br /> ・価値あるデータの<strong>情報源</strong>となる<br /> ・読者の<strong>興味を引く</strong>ような見出しをつける<br /> もっと良いコンテンツを作れるように、一緒に頑張りましょう。</p> <h2 id="関連記事"><a href="#%E9%96%A2%E9%80%A3%E8%A8%98%E4%BA%8B">関連記事</a></h2> <p><a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/top-30-data-visualization-tools/">2021年データ分析・データ可視化ツールおすすめの31選!</a><br /> <a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/top-4-big-data-practical-uses-for-growing-your-startup/">スタートアップの成長におけるビッグデータの活用</a><br /> <a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/how-web-scraping-and-data-analysis-can-help-to-grow-your-business/">Webデータの収集と分析は、ビジネス成長にどのように役立ちますか?</a></p> Octoparse Japan tag:crieit.net,2005:PublicArticle/16824 2021-04-07T20:23:00+09:00 2021-04-07T20:24:07+09:00 https://crieit.net/posts/RPA-RPA-8 業務自動化の未来へ進発!RPAツール導入方法・おすすめRPAツール8選 <p><a href="https://crieit.now.sh/upload_images/84a7c0cabbdde86e56ab8b4e895013bc606d9599e64c6.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/84a7c0cabbdde86e56ab8b4e895013bc606d9599e64c6.png?mw=700" alt="image" /></a><br /> 元記事:<a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/8-most-popular-robotic-process-automation-rpa-tools/">https://www.octoparse.jp/blog/8-most-popular-robotic-process-automation-rpa-tools/</a></p> <h1 id="1. RPAとは?"><a href="#1.+RPA%E3%81%A8%E3%81%AF%EF%BC%9F">1. RPAとは?</a></h1> <p>RPAは「Robotic Process Automation」の略称です。簡単に言うと、RPAの主な目的は、重複的で文書化されたありふれた作業をすべてロボットに行わせることです。</p> <h1 id="2. RPAによる影響力"><a href="#2.+RPA%E3%81%AB%E3%82%88%E3%82%8B%E5%BD%B1%E9%9F%BF%E5%8A%9B">2. RPAによる影響力</a></h1> <p>RPAツールを導入実績がある業界は、単に銀行、金融サービス、保険業界だけではありません。業務自動化を推進しているため、製造業、通信業、航空業、石油・ガス業、小売業、分析業などの業界・産業分野に大きな影響を与えます。<br /> 多くの業界・産業分野で、スマートなRPA自動化ツールをビジネスプロセスに導入することが進められています。</p> <p>RPAツールが登場した前、企業の「社内で開発した自動化ツール」は、簡単なバッチ処理やエクセルの自動化、マクロなどで業務プロセスを処理していました。それらは拡張性や信頼性に欠けていましたが、従業員の生産性も向上させた実績があります。</p> <p>RPAの自動化ロボットを開発する前に、<strong>適切なRPAツールを選択することは最も重要なことです</strong>。それは、RPA導入の<strong>業務効率化・自動化の効果を直接左右する</strong>ものだからです。<br /> Gartner社の調査により、世界のRPAソフトウェア支出は、2022年に24億ドルに達すると予想されています。RPA市場は、2024年には約87.5億ドルに達すると予想されています。また、<strong>2022年末までに、大企業・大手企業の80%がRPAを導入すると言われています。</strong></p> <p>しかし、企業は自分の業務に一番適切なRPAツールを選ぶことが非常に難しいです。</p> <p>この記事は、ここまでビジネスにおけるRPAツール選び方から、現在のトップレベルのRPAツールと、それらの主要機能の比較までを紹介します。</p> <h1 id="3. RPAツールの選び方"><a href="#3.+RPA%E3%83%84%E3%83%BC%E3%83%AB%E3%81%AE%E9%81%B8%E3%81%B3%E6%96%B9">3. RPAツールの選び方</a></h1> <p>RPAの導入を成功させるためには、プロセス・操作自動化や機械学習などのワークフローを通じたビジネスプロセスの改善への取り組みが必要です。また、<strong>自社のニーズやリソースに合った適切なRPAソリューションを選択することも重要です。</strong><br /> 業務の目的やプロセスの変革を明確に理解した上で、初期の調査に加えて、具体的な要件をリストアップすることができます。これにより、選択肢が大幅に絞られ、ニーズに合ったツールの選択がより易くなります。</p> <p>一般的な要件には次のようなものがあります。</p> <p>・コスト(開発・メンテナンスなど)<br /> ・非構造化データの標準化<br /> ・カスタマイズRPA開発可能性<br /> ・コア機能の実現可能性<br /> ・タスクやワークフローを階層化して自動化プロセスになる可能性</p> <p>また、RPAの将来的な拡張性に注目することも重要なポイントです。可能であれば、<strong>自社の現在および将来のニーズに対応できるRPAプラットフォームを選択すること</strong>で、追加ソリューションの特定、導入、および自社のデジタルインフラとの共存の確保にかかる時間を短縮することができます。さらに、ツールの拡張性も確保できます。</p> <h1 id="4. RPAツールを導入する前に考えるべきこと"><a href="#4.+RPA%E3%83%84%E3%83%BC%E3%83%AB%E3%82%92%E5%B0%8E%E5%85%A5%E3%81%99%E3%82%8B%E5%89%8D%E3%81%AB%E8%80%83%E3%81%88%E3%82%8B%E3%81%B9%E3%81%8D%E3%81%93%E3%81%A8">4. RPAツールを導入する前に考えるべきこと</a></h1> <p>一般的に、RPAは、これまで人間の監視や直接的な関与を必要としていたさまざまな業務を遂行することができます。しかし、現在のRPAツールは、ビジネスに必要な特定の機能を提供するわけではありません。<br /> 考えるべき最も重要なことは、<strong>ビジネスのニーズに合わせて、あるソリューションがどのような関連性を持っているかということ</strong>です。例として、機械学習やコグニティブ・オートメーション、インテリジェント・オートメーションが中心的なニーズであれば、候補となるプロバイダーがその種のツールやソフトウェアを提供できるかどうかを確認べきです。</p> <p>また、サポートやカスタマーサポートサービスも大事です。<br /> 自動化ソフトウェアは、データのプライバシー、管理、統合などの問題を考えなければなりません。</p> <p>・自動化のパイロットやテストを担当する管理者は一人でしょうか?<br /> ・現在の業務に不可欠で、まだ見直しや変革を行うべきではない特定の反復作業はありますか?</p> <p>積極的にサポートしてくれる協力会社がいれば、<strong>導入プロセスを円滑に進めることができ</strong>、RPAを導入成功するための良い条件を整えます。</p> <h1 id="5. 2021年おすすめRPAツール8選"><a href="#5.+2021%E5%B9%B4%E3%81%8A%E3%81%99%E3%81%99%E3%82%81RPA%E3%83%84%E3%83%BC%E3%83%AB8%E9%81%B8">5. 2021年おすすめRPAツール8選</a></h1> <h2>5.1. <a target="_blank" rel="nofollow noopener" href="https://www.automationanywhere.com/jp/">Automation Anywhere</a></h2> <p>RPAツールで最もよく知られているAutomation Anywhereは、クラウドサービスでWebベースのRPAソリューションで、主にスクリプトを活用して自社の技術スタックに基づいてRPAを構築します。<br /> <strong>非常に複雑なRPAプロセスを作成することができます</strong>。単純なコピペの定常処理からデータ修正まで、Automation Anywhereは幅広い自動化ニーズに対応する必要な拡張性を提供します。<br /> Automation Anywhereは、数週間で70%のエンドツーエンドの自動化をしていますが、これも、バーチャルワーカーやボットスクリプトを設定する必要な時間です。また、<strong>顧客体験を50%向上させるという実績もあります</strong>。<br /> <a href="https://crieit.now.sh/upload_images/e6bcec704e97d05e2708ac4d52a41e30606d95a74c920.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/e6bcec704e97d05e2708ac4d52a41e30606d95a74c920.png?mw=700" alt="image" /></a></p> <p><strong>ー料金表ー</strong><br /> ※30日無料トライアルあり<br /> Cloud Starter Pack: $750/月<br /> Advanced Pack: 要問い合わせ</p> <h2>5.2. <a target="_blank" rel="nofollow noopener" href="https://www.blueprism.com/">Blue Prism</a></h2> <p>RPA業界で最も歴史長いツールであるBlue Prismは、近年着実に成長しています。<br /> Blue Prismは、フォーチュン企業のエンドツーエンドのRPAに特化しています。また、Blue Prismは、トップクラスの無人ロボットを提供しています。ロボットは非常に洗練されているだけでなく、高度なRPAネットワークを設定するための深いスクリプト機能も備えています。<br /> Blue Prismを組織全体で使用するためには、堅牢な開発フレームワークへのコストが必要です。一方、Blue Prismは優れたデバッグ機能と圧倒的な拡張性も備えています。<br /> <a href="https://crieit.now.sh/upload_images/7bf23c07b266126a796978e9c650d8b7606d95b033864.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/7bf23c07b266126a796978e9c650d8b7606d95b033864.png?mw=700" alt="image" /></a></p> <p><strong>ー料金表ー</strong><br /> ※無料トライアルあり<br /> 要問い合わせ</p> <h2>5.3. <a target="_blank" rel="nofollow noopener" href="https://www.uipath.com/ja/">UiPath</a></h2> <p>UiPathには優れたのは、「<strong>使いやすさ</strong>」という点です。<br /> UiPathは、インストールが簡単で、UIベースの開発機能を備えています。最も重要なのは、強力なオンラインチュートリアルセクションが、ソフトウェアに慣れるのに役立つということです。ガートナーのクアドラントレビューによると、UiPathは一流のカスタマーサポートチームを持ち、すべてを考慮すると、UiPathは迅速なRPA導入を求める企業にとって理想的です。<br /> <a href="https://crieit.now.sh/upload_images/09d08f6af12f5602ef6caa889cca1144606d95b8e35d7.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/09d08f6af12f5602ef6caa889cca1144606d95b8e35d7.png?mw=700" alt="image" /></a></p> <p><strong>ー料金表ー</strong><br /> ※無料トライアルあり<br /> Community: 無料<br /> Studio: $2000 ~ $3,000/年<br /> Orchestrator: $20,000/年<br /> Attended Robot: $1,200 ~ $1,800/個<br /> Unattended Robot: $8,000/個</p> <h2>5.4. <a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/">Octoparse</a></h2> <p>Octoparseはノーコード(プログラミング不要)で、クリックするだけでWebデータ抽出を自動化するRPAツールです。<a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/the-10-best-web-scraping-tools/">Webスクレイピングツール</a>とも呼ばれます。従来、手作業(コピペ)で、或いはプログラミングで<a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/what-is-web-crawler/">Webクローラー</a>を構築して、Webページからデータを収集しますが、ものすごく時間がかかります。<br /> データ抽出をよりやすくするために、OctoparseはAmazon・楽天市場・Twitterなどのサイトからすぐにデータを収集する<a target="_blank" rel="nofollow noopener" href="https://helpcenter.octoparse.jp/hc/ja/articles/360015816173-%E3%83%86%E3%83%B3%E3%83%97%E3%83%AC%E3%83%BC%E3%83%88%E3%83%A2%E3%83%BC%E3%83%89">Webスクレイピングテンプレート</a>を提供しています。<br /> <a href="https://crieit.now.sh/upload_images/58bd33b5e42d8d1b76cde702cd59d9c4606d95c31864d.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/58bd33b5e42d8d1b76cde702cd59d9c4606d95c31864d.png?mw=700" alt="image" /></a></p> <p>パラメータ(ターゲットWebサイトのURL、検索キーワードなど)を<strong>入力するだけ</strong>で、価格情報・商品詳細・Web上の口コミなどのデータが抽出されてきます。クラウド型プラットフォームも提供するので、<strong>スケジュール設定も可能</strong>です。<br /> 他のWebサイトに対して、Octoparseは<a target="_blank" rel="nofollow noopener" href="https://helpcenter.octoparse.jp/hc/ja/articles/360013585100-%E3%83%AC%E3%83%83%E3%82%B9%E3%83%B31-%E8%87%AA%E5%8B%95%E8%AD%98%E5%88%A5%E6%A9%9F%E8%83%BD%E3%81%A7%E3%83%87%E3%83%BC%E3%82%BF%E3%82%92%E6%8A%BD%E5%87%BA%E3%81%99%E3%82%8B">自動識別機能</a>も提供しています。<br /> <a href="https://crieit.now.sh/upload_images/106723ab55b32e2e9e4b1437aa93f29c606d95cdc981c.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/106723ab55b32e2e9e4b1437aa93f29c606d95cdc981c.png?mw=700" alt="image" /></a></p> <p>リアルタイムデータを自動抽出し、Web上の最新情報をいつでも入手できます。取得したデータは<strong>Excel、HTML、CSVなどのフォーマット</strong>で、または<strong>データベース</strong>に保存されます。Web上の様々なデータを収集したい場合は、ぜひWebスクレイピングツールを試してみてください。</p> <p><strong>ー料金表ー</strong><br /> フリープラン:無料(クラウド抽出以外、スクレイピングツールのコア機能を使用可能)<br /> スタンダードプラン:$75/月(年払い)または$89/月(月払い)<br /> ※14日間の無料トライアルあり<br /> プロフェッショナルプラン:$209/月(年払い)または$249/月(月払い)<br /> ※14日間の無料トライアルあり</p> <h2>5.5. <a target="_blank" rel="nofollow noopener" href="https://flow.microsoft.com/">Microsoft Power Automate</a></h2> <p>Microsoft Power Automateはシンプルでありながら効果的なRPAソリューションを提供します。Microsoft Power Automateの最大のメリットは<strong>簡単でセットアップできる</strong>ことです。つまり、マイクロソフトのエコシステムのデータをすぐに利用することができ、RPAを簡単に行うことができます。ロボットワークフォースをオーケストレーション(設定、管理、調整の自動化)するのは役立ちます。<br /> <a href="https://crieit.now.sh/upload_images/2b00ec4b25224c9ea049489d8e80c81a606d95d83e490.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/2b00ec4b25224c9ea049489d8e80c81a606d95d83e490.png?mw=700" alt="image" /></a></p> <p><strong>ー料金表ー</strong><br /> Per-user plan: $15/月/1ユーザー<br /> Per-user plan with attended RPA: $40/月/1ユーザー<br /> Per-flow plan: $500~/月/1ユーザー</p> <h2>5.6. <a target="_blank" rel="nofollow noopener" href="https://www.celonis.com/">Celonis</a></h2> <p>Celonisは、自動化すべきプロセスを特定する(プロセスマイニング)ことは上手です。そのためには、クラウドの構造や従業員の日常業務を調査します。これにより、システムの状況を把握することができ、チャンスのある分野やプロセスの問題点を明らかにすることができます。<br /> したがって、CelonisはUiPathなどのRPAソリューションとの<strong>組み合わせが理想的です</strong>。<br /> <a href="https://crieit.now.sh/upload_images/c82a0dd808393167be87973eacf82efd606d95dedb799.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/c82a0dd808393167be87973eacf82efd606d95dedb799.png?mw=700" alt="image" /></a></p> <p><strong>ー料金表ー</strong><br /> ※無料トライアルあり<br /> 要問い合わせ</p> <h2>5.7. <a target="_blank" rel="nofollow noopener" href="https://winactor.com/">WinActor</a></h2> <p>WinActorは<strong>NTTグループに開発された純国産RPAツール</strong>です。日本国内でサービスインフラ・ソフトウェア通信・金融などの業界でよく導入され、<strong>シェアNo.1となっています</strong>。業務の手順を「シナリオ」として記憶し、同じ操作を何回でも繰り返し実行することができます。1台のPCでスモールスタートから大規模導入まで幅広く対応可能です。パッケージソフト(Office製品など)からスクラッチ開発の独自システムまで、プログラミングスキルがなくても簡単に操作できます。60日間の無料トライアルも提供し、カスタマーサポートも充実しているので、初めての企業にも安心です。<br /> <a href="https://crieit.now.sh/upload_images/5d1c8a6c39cb31c80670a775a329f16e606d95e5e399e.jpg" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/5d1c8a6c39cb31c80670a775a329f16e606d95e5e399e.jpg?mw=700" alt="image" /></a></p> <p><strong>ー料金表ー</strong><br /> フル機能版:908,000円/年/PC1台<br /> 実行版:248,000円/年/PC1台</p> <h2>5.8. <a target="_blank" rel="nofollow noopener" href="https://www.softbank.jp/biz/rpa/synchroid/">SynchRoid</a></h2> <p>SynchRoidはソフトバンクが開発したRPAツールです。その特徴は「ITスキルが低い社員でも開発できるシンプルなRPA」です。従来、RPAとは開発画面が難しく専門的なスキルが要求されることの多い製品でした。SynchRoidでは、開発画面をGUI(グラフィカル・ユーザー・インターフェース)で提供し、<strong>ITや情報システム従事者でなくとも開発者として自動化ロボットを作り出せます</strong>。実行環境は、デスクトップおよびサーバーどちらも選択可能です。RPAの導入支援やトレーニングなどのサポートは充実し、多くのシステムとの連携が可能です。<br /> <a href="https://crieit.now.sh/upload_images/6ffa327e797cac7269e0350280c2d384606d95ecda769.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/6ffa327e797cac7269e0350280c2d384606d95ecda769.png?mw=700" alt="image" /></a></p> <p><strong>ー料金表ー</strong><br /> ライトパック:900,000円/年<br /> ベーシックパック:600,000/月</p> <h1 id="6. まとめ"><a href="#6.+%E3%81%BE%E3%81%A8%E3%82%81">6. まとめ</a></h1> <p>RPAを導入することで、業務効率化を実現することが可能です。データ入力・収集など重複作業をRPAがおこなうことで、重要な仕事に集中できます。RPAツールは安くないが、人件費コストの削減や業務自動化・業務効率化を考えれば、導入の価値はあります。この記事で紹介されたツールは無料トライアルも提供しているので、ツール選びに迷ったら、ぜひ今回紹介したツールを使ってみてください。</p> <p><a href="https://crieit.now.sh/upload_images/9211be13dbf84c6b98b0da0ecbffb784606d95fde805c.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/9211be13dbf84c6b98b0da0ecbffb784606d95fde805c.png?mw=700" alt="image" /></a><br /> <a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/umbraco/?utm_source=8913&utm_medium=pic&utm_campaign=crieit">無料トライアルはこちらから!</a></p> <h3 id="関連記事"><a href="#%E9%96%A2%E9%80%A3%E8%A8%98%E4%BA%8B">関連記事</a></h3> <p><a target="_blank" rel="nofollow noopener" href="https://www.youtube.com/watch?v=0DY6Dxtw2mw">【YouTube動画】2021年注目の業務自動化ツール30選</a><br /> <a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/top-30-process-automation-tools-for-2018/">働き方改革 | 2021年注目の業務自動化ツール30選</a><br /> <a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/8-best-nocode-development-platforms-and-tools-list/">【2021年】無料のノーコード(NoCode)開発ツール厳選8選</a><br /> <a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/top-20-web-crawling-tools-for-extracting-web-data/">Webクローラーツール20選|Webデータの収集を自動化できる</a></p> Octoparse Japan tag:crieit.net,2005:PublicArticle/16799 2021-03-31T17:12:22+09:00 2021-03-31T17:15:46+09:00 https://crieit.net/posts/2021-NoCode-8 【2021年】無料のノーコード(NoCode)開発ツール厳選8選 <p><a href="https://crieit.now.sh/upload_images/969d28a2918b611956b662de6f2bf53160642e66b261a.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/969d28a2918b611956b662de6f2bf53160642e66b261a.png?mw=700" alt="image" /></a></p> <p>元記事:<a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/8-best-nocode-development-platforms-and-tools-list/">https://www.octoparse.jp/blog/8-best-nocode-development-platforms-and-tools-list/</a></p> <p>こんなお悩みはありませんか?</p> <p>・「スタートアップを始めたいと思いますが、プログラミングを学んでいる時間がない…」<br /> ・「新サービスを思いついたので、自動化させていきたいが、会社のエンジニアは時間がない…」<br /> ・「Web上の情報を収集する時、手作業すると効率が悪いから、専用のツールが欲しい…」</p> <p>昔は、複雑なアプリケーションを構築するために、莫大なコスト、複数の開発者、膨大な開発時間を必要です。正直と言うと、プログラミングを学ぶのは大変です。</p> <p>現在、プログラミングを学ばなくても、素晴らしいWebホームページ、アプリケーションや自動化ツールなどを開発することができます。<br /> したがって、ノーコード(NoCode)はインターネットの未来です。</p> <p>去年から、<strong>ノーコードツールを開発したスタートアップが急成長しています。</strong>巨大テック(Google・Amazon・Microsoftなど)企業も続々ノーコードに参入しました。<br /> 業務自動化をワークフローで簡単に構築したり、ビジネスプロセスを改善したり、オペレーションや成長を支援するために必要なあらゆることもできます。</p> <p>昔は多くのWebページやアプリケーションのデザインと開発は、コードを動作させるために昼夜を問わず働かなければならない開発者に依存していました。<br /> 2021年に、<strong>コーディングなしで、誰でも様々な機能を開発することができるという「ノーコードツール」がいっぱい登場されています。</strong><br /> 業務自動化、Webサイトの作成やアプリの開発など、難しいことでもノーコードツールがあれば、簡単に実現できます。</p> <p>そもそも、ノーコードとは何でしょうか?</p> <h1 id="1. ノーコードとは?"><a href="#1.+%E3%83%8E%E3%83%BC%E3%82%B3%E3%83%BC%E3%83%89%E3%81%A8%E3%81%AF%EF%BC%9F">1. ノーコードとは?</a></h1> <p>簡単に言うと、ノーコードとは、プログラミングを勉強をせずに、コードを書かずにGUI(グラフィカル・ユーザ・インターフェース、Graphic User Interface)を使って、アプリを開発、自動化プロセスに動かせることです。<br /> しかし、「ノーコード」というのは、本当に「コードがない」ということではありません。実際には、ツールを開発した人たちがコーディングで開発されて、GUI経由でユーザーは簡単に開発できるようなツールです。ツールを使用するユーザー・企業にとって、より簡単な体験を提供しています。<strong>開発する必要な操作は、クリック、スクロール、またはドラッグ&ドロップだけです。</strong><br /> 「開発」は大衆にとってより身近なものとなり、テクノロジーの新しい時代が来ています。</p> <h1 id="2. ノーコードツールで何ができる?"><a href="#2.+%E3%83%8E%E3%83%BC%E3%82%B3%E3%83%BC%E3%83%89%E3%83%84%E3%83%BC%E3%83%AB%E3%81%A7%E4%BD%95%E3%81%8C%E3%81%A7%E3%81%8D%E3%82%8B%EF%BC%9F">2. ノーコードツールで何ができる?</a></h1> <p>ノーコードツールで作れるものは限られていません。Webサイトの構築からアプリの製作まで、可能性は無限大です。仕事を自動化したり、Web上の情報を自動取集したり、データを整理したり、ノーコードツールで解決可能です。<br /> オンラインでアンケートを作成したことがありますよね?あれもノーコードです。<br /> <strong>ノーコードといっても、特定の分野に特化したものではなく、さまざまな種類のツールがあります。</strong>以下のリストでは、おすすめのノーコードツールを紹介します。</p> <h1 id="3. Webサイトを構築できるノーコード(NoCode)ツール"><a href="#3.+Web%E3%82%B5%E3%82%A4%E3%83%88%E3%82%92%E6%A7%8B%E7%AF%89%E3%81%A7%E3%81%8D%E3%82%8B%E3%83%8E%E3%83%BC%E3%82%B3%E3%83%BC%E3%83%89%EF%BC%88NoCode%EF%BC%89%E3%83%84%E3%83%BC%E3%83%AB">3. Webサイトを構築できるノーコード(NoCode)ツール</a></h1> <h2>3.1. <a target="_blank" rel="nofollow noopener" href="https://webflow.com/">Webflow</a></h2> <p>Webflowは、「レスポンシブWebサイトをデザインして立ち上げることができる」というWebサイト構築プラットフォームです。他のWebサイトビルダーを使った経験があるかもしれませんが、Webflowはとても使いやすいに感じられます。<br /> 多くのWebサイトビルダーでは、ある程度のカスタマイズが可能ですが、<strong>Webflowでは、クリックしてスクロールするだけでWebサイトを構築することができます。</strong><br /> さらに、カスタマイズ性にも優れています。ゼロからスタートして、自分の好きなようにフルレスポンシブ(スマホ、タブレット、PCのどの端末でも最適な画面表示)なWebサイトを構築することもできるし、手っ取り早く済ませたいならテンプレートを使うこともできます。</p> <p><a href="https://crieit.now.sh/upload_images/c118467302c623b4026d79c9437bfeb760642e736b4db.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/c118467302c623b4026d79c9437bfeb760642e736b4db.png?mw=700" alt="image" /></a></p> <p>ー料金表ー<br /> ※個人向けプランの場合、無料で始められます。<br /> 会社向けプランの場合:<br /> Lite:$16/月<br /> Pro:$35/月</p> <h2>3.2. <a target="_blank" rel="nofollow noopener" href="https://carrd.co/">Carrd</a></h2> <p>Webflowより早く、より簡単な方法でWebサイト構築ツールです。<br /> Carrdは、<strong>よりシンプルなWebサイトを構築するための完璧なノーコードツールです。</strong>Carrdは他のツールと同じようにパワフルですが、方向が違いますのでご注意ください。<br /> Carrdは、テンプレートを使って、あるいはゼロからカスタマイズできる1ページのWebサイトを構築するために設計されています。そのシンプルさと安い価格なので、筆者はおすすめリストに入れました。</p> <p><a href="https://crieit.now.sh/upload_images/87ec59b8e417c5df1966b386a23ae2b060642e7a9a69a.jpg" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/87ec59b8e417c5df1966b386a23ae2b060642e7a9a69a.jpg?mw=700" alt="image" /></a></p> <p>ー料金表ー<br /> ※無料プランで始められます。(3つのWebサイトまで)<br /> Pro:$19/年</p> <h1 id="4. Webアプリを開発できるノーコード(NoCode)ツール"><a href="#4.+Web%E3%82%A2%E3%83%97%E3%83%AA%E3%82%92%E9%96%8B%E7%99%BA%E3%81%A7%E3%81%8D%E3%82%8B%E3%83%8E%E3%83%BC%E3%82%B3%E3%83%BC%E3%83%89%EF%BC%88NoCode%EF%BC%89%E3%83%84%E3%83%BC%E3%83%AB">4. Webアプリを開発できるノーコード(NoCode)ツール</a></h1> <h2>4.1. <a target="_blank" rel="nofollow noopener" href="https://bubble.io/">Bubble</a></h2> <p><strong>Webアプリケーションを構築する必要があるなら、Bubbleは最適です。</strong><br /> Bubbleは、アプリ全体をプロトタイプ化し、数時間で構築して立ち上げて、効率的にビジネス成長を拡大する機会を与えてくれます。内部ツールも備え、機能性と使いやすさを同時に実現しています。<br /> しかし、筆者がこの製品に惚れ込んだのは、クリックによる操作やUIコンポーネントの配置だけでWebアプリが作れます。Webアプリはこんなに簡単になるのは思えませんでした。</p> <p><a href="https://crieit.now.sh/upload_images/b70db81d4d49e748267323ee942fd13060642e81b3d09.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/b70db81d4d49e748267323ee942fd13060642e81b3d09.png?mw=700" alt="image" /></a></p> <p>ー料金表ー<br /> Hobby:無料<br /> Personal:$25/月(年払い)または$29/月(月払い)<br /> Professional:$115/月(年払い)または$129/月(月払い)<br /> Production:$475/月(年払い)または$529/月(月払い)</p> <h2>4.2. <a target="_blank" rel="nofollow noopener" href="https://www.glideapps.com/">Glide</a></h2> <p><strong>Glideは「高速でアプリが作れる」という点が一番特徴的です。</strong><br /> Glideとは、Googleのスプレッドシートを「データベース」として利用し、Webアプリが作れるノーコードツールです。アプリのデザインも最初からテンプレートが用意されていて、テンプレートを使ってもいいし、要望に応じてデザインをカスタマイズすることもできます。</p> <p><a href="https://crieit.now.sh/upload_images/06d1514e648f81befd8a61c3506d11fb60642e8aafbe9.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/06d1514e648f81befd8a61c3506d11fb60642e8aafbe9.png?mw=700" alt="image" /></a></p> <p>ー料金表ー<br /> Pro App:$19/月(年払い)または$29/月(月払い)<br /> Business App:$99/月</p> <h1 id="5. 業務自動化・効率化できるノーコード(NoCode)ツール"><a href="#5.+%E6%A5%AD%E5%8B%99%E8%87%AA%E5%8B%95%E5%8C%96%E3%83%BB%E5%8A%B9%E7%8E%87%E5%8C%96%E3%81%A7%E3%81%8D%E3%82%8B%E3%83%8E%E3%83%BC%E3%82%B3%E3%83%BC%E3%83%89%EF%BC%88NoCode%EF%BC%89%E3%83%84%E3%83%BC%E3%83%AB">5. 業務自動化・効率化できるノーコード(NoCode)ツール</a></h1> <h2>5.1. <a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/">Octoparse</a></h2> <p>簡単と言えば、Octoparseは直感的に操作ができるWebスクレイピングツールです。</p> <p><a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/web-scraping/">Webスクレイピングとは</a>、「Webサイトからデータを集めて抽出する技術」で、「Webクローリング」と「Webスパイダー」も同じ意味です。<br /> Web上の情報を手作業でまとめるのは非常に時間がかかります。Webサイトのクチコミやレビューなどの情報を自動で収集する時、通常はPythonなどのプログラミング言語で開発する必要があります。<br /> Webスクレイピングツールは、プログラミング言語の知識がない人でも手軽にWebからデータを収集して抽出することができるよう設計されたツールです。<br /> <a href="https://crieit.now.sh/upload_images/de0b1555020f5b493085cf1780e96b6660642e951fef9.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/de0b1555020f5b493085cf1780e96b6660642e951fef9.png?mw=700" alt="image" /></a></p> <p>それだけでなく、Octoparseは以下の様々な機能があります。</p> <p><strong>・自動識別機能搭載</strong><br /> Octoparseには<a target="_blank" rel="nofollow noopener" href="https://helpcenter.octoparse.jp/hc/ja/articles/360013585100-%E3%83%AC%E3%83%83%E3%82%B9%E3%83%B31-%E8%87%AA%E5%8B%95%E8%AD%98%E5%88%A5%E6%A9%9F%E8%83%BD%E3%81%A7%E3%83%87%E3%83%BC%E3%82%BF%E3%82%92%E6%8A%BD%E5%87%BA%E3%81%99%E3%82%8B">自動識別機能</a>が搭載されています。クリックするだけでワークフローを自動的に生成して、スクレイピングが開始できます。<br /> <a href="https://crieit.now.sh/upload_images/106723ab55b32e2e9e4b1437aa93f29c60642e9c2ad04.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/106723ab55b32e2e9e4b1437aa93f29c60642e9c2ad04.png?mw=700" alt="image" /></a></p> <p><strong>・様々なサイトに対応可能</strong><br /> Octoparseは静的なWebサイトやAJAXやJavaScript技術を使っている動的Webサイトに対応しています。</p> <p><strong>・便利なテンプレートを提供する</strong><br /> テンプレートで、URLかキーワードパラメーターを入力するだけで、データを取得できます。現在、70個を超える人気のある<a target="_blank" rel="nofollow noopener" href="https://helpcenter.octoparse.jp/hc/ja/articles/360015816173-%E3%83%86%E3%83%B3%E3%83%97%E3%83%AC%E3%83%BC%E3%83%88%E3%83%A2%E3%83%BC%E3%83%89">Webサイトのテンプレート</a>があります。 タスクを作る手間がかからなくても、すぐに欲しいデータを手に入れることができます。</p> <p><strong>・スケジュールで実行可能</strong><br /> スケジュールを設定しておけば、自動的にデータを取得することが可能です。</p> <p>複数サイトを自動的にデータを抽出したい場合に、Octoparseは強力な味方となります。Web上の情報を収集したい方はぜひ試してみてください。</p> <p>ー料金表ー<br /> フリープラン:無料(クラウド抽出以外、スクレイピングツールのコア機能を使用可能)<br /> スタンダードプラン:$75/月(年払い)または$89/月(月払い)<br /> ※14日間の無料トライアルあり<br /> プロフェッショナルプラン:$209/月(年払い)または$249/月(月払い)<br /> ※14日間の無料トライアルあり</p> <h2>5.2. <a target="_blank" rel="nofollow noopener" href="https://userguiding.com/">UserGuiding</a></h2> <p>BubbleでWebサイトやWebアプリを開発した後は、チュートリアルはすごく大事です。<br /> UserGuidingは<strong>ユーザーガイド</strong>と<strong>ユーザーオンボーディング</strong>(新規ユーザーの最初のログインから始まり、ユーザーがハッと気づくまでの重要なプロセスのこと)製品に最適なユーザーオンボーディング体験を作るツールです。<br /> UserGuidingは、ブラウザの拡張機能として動作し、お客様の製品上で直接動作します。<br /> さらに、ユーザーをセグメント化してパーソナライズされた体験を作り、目的に応じて必要なオンボーディング要素だけを通過させることができます。<br /> また、UserGuidingでは、作成したコンテンツのパフォーマンスを詳細な分析ツールで追跡することができます。</p> <p><a href="https://crieit.now.sh/upload_images/54ae215a22551b3ba661b2ba8c39ad8c60642eb4f3cfd.jpg" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/54ae215a22551b3ba661b2ba8c39ad8c60642eb4f3cfd.jpg?mw=700" alt="image" /></a></p> <p>ー料金表ー<br /> Start-up:$199/月<br /> Growth:$399/月</p> <h2>5.3. <a target="_blank" rel="nofollow noopener" href="https://zapier.com/">Zapier</a></h2> <p>Zapierは業務を自動化することができるiPaaSです。OctoparseサポートチームもZapierを利用しています。<br /> Zapierは、1500種類以上のWebアプリやツールを組み合わせて連携することで、自動化のシステムを構築します。<br /> 自動化のシステムは、従来ならエンジニアに依頼して個別のプログラム開発が必要でした。<br /> Zapierでブラウザ上の操作だけで、誰でも簡単に使える非常に便利なツールです。</p> <p><a href="https://crieit.now.sh/upload_images/79896a2a8b9bc2e19dcde86fbbc56cdc60642ebfcfa3d.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/79896a2a8b9bc2e19dcde86fbbc56cdc60642ebfcfa3d.png?mw=700" alt="image" /></a></p> <p>ー料金表ー<br /> ※無料プランで始められます。(100タスクまで)<br /> Starter:$19.99/月 (750タスク)<br /> Professional:$49/月(2000タスク)<br /> Team:$299/月(50000タスク)<br /> Company:$599/月(100000タスク)</p> <h2>5.4. <a target="_blank" rel="nofollow noopener" href="https://www.voiceflow.com/">Voiceflow</a></h2> <p>2011年にSiriが音声アシスタントとしてデビューして以来、ボイスアシスタントは長い道のりを歩んできました。AmazonのAlexaやGoogleアシスタントがSiriのすぐ隣に位置するようになり、音声技術がノーコードのツールになる時期がやってきました。<br /> 自分の音声アシスタントをもっとカスタマイズできたらいいと思いませんか?<br /> Voiceflowはまさにそれを実現します。<br /> Voiceflowでは、ブラウザ上でプロトタイプを作成したり、ワンクリックでアップロードできる機能を使って実際の音声デバイスで試すことができます。VoiceflowはAlexaやGoogle Assistantにも使えますし、チームで作業している場合は、そのためだけのスペースがツール内に用意されています。<br /> Voiceflowが特に優れているのは、おそらくUI(ユーザーインターフェース)です。このツールでは、ドラッグ&ドロップ方式により、音声アプリを効率的かつ楽しく視覚的に開発することができます。</p> <p><a href="https://crieit.now.sh/upload_images/936d455521b507bdc7788691c7d746a160642ec76dfbd.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/936d455521b507bdc7788691c7d746a160642ec76dfbd.png?mw=700" alt="image" /></a></p> <p>ー料金表ー<br /> Starter:無料<br /> Pro:$40/月<br /> Team:$140/月</p> <h1 id="6. まとめ"><a href="#6.+%E3%81%BE%E3%81%A8%E3%82%81">6. まとめ</a></h1> <p>ノーコードは、ビジネス、テクノロジー、そして開発を確実に変えていきます。この記事で紹介できなかったツールもたくさんありますが、ツール選びに迷ったら、ぜひ今回紹介したツールを使ってみてください。<br /> ノーコードツールが深く浸透するようになれば、開発をスピードアップすることができ、アイデアがより具現化しやすくなり、ビジネスのスピードも一層加速していくでしょう。<br /> 時代に乗り遅れることのないよう、今のうちにノーコードツールを使ってみませんか。<br /> <a href="https://crieit.now.sh/upload_images/9211be13dbf84c6b98b0da0ecbffb78460642f4805344.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/9211be13dbf84c6b98b0da0ecbffb78460642f4805344.png?mw=700" alt="image" /></a><br /> <a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/?utm_source=8883&utm_medium=pic&utm_campaign=crieit">無料トライアルはこちらから!</a></p> Octoparse Japan tag:crieit.net,2005:PublicArticle/16766 2021-03-24T17:10:08+09:00 2021-03-24T17:11:42+09:00 https://crieit.net/posts/Excel-VBA-Web 【初心者向け】ExcelとVBAでWebスクレイピング実戦! <p><a href="https://crieit.now.sh/upload_images/e3cadfdba4688563a1e8d30580eacf54605af1c329c00.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/e3cadfdba4688563a1e8d30580eacf54605af1c329c00.png?mw=700" alt="image" /></a><br /> 元記事:<a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/intro-to-web-scraping-with-excel-vba/">https://www.octoparse.jp/blog/intro-to-web-scraping-with-excel-vba/</a></p> <p><a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/web-scraping/">スクレイピング</a>とは、WebページのHTMLコードから、<strong>必要な情報やデータを抽出する</strong>ことです。言い換えれば、自動的にWebページ上のデータを収集する技術です。</p> <p>現在、<a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/web-scraping/">スクレイピング</a>の一般的なプログラミング言語は、<a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/web-scraping-using-python/">Python</a>、Ruby、JAVA、<a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/creating-a-simple-web-crawler-in-php/">PHP</a>などができますが、開発環境構築と環境設定は<strong>初心者に対しては非常に難しい</strong>です。</p> <p>したがって、この記事で紹介するVBAは以下のメリットがあります。</p> <p>・開発環境構築<strong>不要</strong><br /> ・取得したデータをExcelシートに<strong>直接保存</strong>できる<br /> ・直接にExcelシートで<strong>セルを設定</strong>できる</p> <p>それでは、ExcelとVBAを使って、Webサイトから情報やデータをExcelシートに取り込むというExcelマクロを実際に作成してみましょう。</p> <h1 id="一、Excelでスクレイピングライブラリを導入"><a href="#%E4%B8%80%E3%80%81Excel%E3%81%A7%E3%82%B9%E3%82%AF%E3%83%AC%E3%82%A4%E3%83%94%E3%83%B3%E3%82%B0%E3%83%A9%E3%82%A4%E3%83%96%E3%83%A9%E3%83%AA%E3%82%92%E5%B0%8E%E5%85%A5">一、Excelでスクレイピングライブラリを導入</a></h1> <p>ExcelでのWebスクレイピングを配置する前に、Excelのマクロに対してライブラリを導入しなければなりません。<br /> 手順は以下になります。</p> <p><strong>1.Excelを開いて、「空白のブック」を選択します。</strong><br /> <a href="https://crieit.now.sh/upload_images/74e597f5e3bc77b406df2d44e78c276b605af1ced7012.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/74e597f5e3bc77b406df2d44e78c276b605af1ced7012.png?mw=700" alt="image" /></a></p> <p><strong>2.リボン欄の「開発」をクリックします。</strong><br /> <a href="https://crieit.now.sh/upload_images/d7c1103e553fa8b1942527526ffa7e17605af1e04d38d.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/d7c1103e553fa8b1942527526ffa7e17605af1e04d38d.png?mw=700" alt="image" /></a></p> <p><strong>3.左側の「Visual Basic」ボタンを選択します。</strong><br /> <a href="https://crieit.now.sh/upload_images/bae9fc57cb3d8cda2cf3f6aae73e0db5605af1e61a751.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/bae9fc57cb3d8cda2cf3f6aae73e0db5605af1e61a751.png?mw=700" alt="image" /></a></p> <p><strong>4.「挿入」をクリックして、「標準モジュール」を選択します。</strong><br /> <a href="https://crieit.now.sh/upload_images/f7f85b99e6fe69d14c12397937b33bc2605af1ec5fcfa.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/f7f85b99e6fe69d14c12397937b33bc2605af1ec5fcfa.png?mw=700" alt="image" /></a></p> <p><strong>5.下記のコードを入力してください。</strong></p> <pre><code>Sub test() End sub </code></pre> <p>結果は以下になっております。<br /> <a href="https://crieit.now.sh/upload_images/c8526129fbc5d4df81a7eb091002c7da605af1f41ca76.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/c8526129fbc5d4df81a7eb091002c7da605af1f41ca76.png?mw=700" alt="image" /></a></p> <p><strong>6.「ツール」をクリックして、「参照設定」をクリックします。</strong><br /> 「Microsoft HTML Object Library」と「Microsoft Internet Controls」のチェックを入れます。<br /> <a href="https://crieit.now.sh/upload_images/01529df864d0e6cc0221da3a6a050d9e605af1fadafd9.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/01529df864d0e6cc0221da3a6a050d9e605af1fadafd9.png?mw=700" alt="image" /></a><br /> <a href="https://crieit.now.sh/upload_images/be51a8b37f9cf5499b975479ba5937f0605af201c8f9e.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/be51a8b37f9cf5499b975479ba5937f0605af201c8f9e.png?mw=700" alt="image" /></a></p> <p>モジュールとは、プログラムにおいて特定の機能を持ったひとまとまりの構成要素です。選択されたのモジュールは、ブラウザ連動とHTMLコードを読み込むという機能が持っています。</p> <p>それで、Webクローラーの開発が必要なものは設定完了です。</p> <h1 id="二、Webサイトにアクセスする"><a href="#%E4%BA%8C%E3%80%81Web%E3%82%B5%E3%82%A4%E3%83%88%E3%81%AB%E3%82%A2%E3%82%AF%E3%82%BB%E3%82%B9%E3%81%99%E3%82%8B">二、Webサイトにアクセスする</a></h1> <p>早速ですが、ExcelのVBAを使って、IEブラウザ経由でWebサイトにアクセスします。<br /> これには、ナビゲート属性を使用します。この属性では、URLを二重引用符で囲んで渡す必要があります。詳しくは下記のコードに参照してください。</p> <pre><code>Sub test() Dim ie As New InternetExplorer Dim doc As New HTMLDocument Dim ecoll As Object ie.Visible = True ie.navigate"http://test-sites.octoparse.com/?page_id=192" Do DoEvents Loop Until ie.readyState = READYSTATE_COMPLETE End sub </code></pre> <p>F5を押して、マクロを実行します。そこで次のようなWebページが表示されます。<br /> <a href="https://crieit.now.sh/upload_images/8f4f8d449ff9d8e3f22749894a1191f2605af20b31d7a.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/8f4f8d449ff9d8e3f22749894a1191f2605af20b31d7a.png?mw=700" alt="image" /></a></p> <h2 id="三、VBAでスクレイピングしましょう"><a href="#%E4%B8%89%E3%80%81VBA%E3%81%A7%E3%82%B9%E3%82%AF%E3%83%AC%E3%82%A4%E3%83%94%E3%83%B3%E3%82%B0%E3%81%97%E3%81%BE%E3%81%97%E3%82%87%E3%81%86">三、VBAでスクレイピングしましょう</a></h2> <p>今回はボタンを押すたびに、Webサイト上データが自動的にエクセルに取り込まれるように開発しましょう。<br /> まず、Webサイトから、要素(HTMLドキュメント)を検証し、データがどのように構成されているかを分析する必要があります。HTML基礎知識は<a target="_blank" rel="nofollow noopener" href="https://developer.mozilla.org/ja/docs/Learn/Getting_started_with_the_web/HTML_basics">こちらのリンク</a>で参照ください。今回はテーブルのデータを抽出するように試してみましょう。</p> <p><strong>1. Ctrl + Shift + I を押して、テーブルの要素を指定すると、HTMLのソースコードに表示されます。</strong><br /> したがって、テーブルの要素は「table」と分かっています。<br /> <a href="https://crieit.now.sh/upload_images/9eccd5f099411315c84c1898bcba8622605af215e3247.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/9eccd5f099411315c84c1898bcba8622605af215e3247.png?mw=700" alt="image" /></a></p> <p><strong>2. VBAで要素「table」を抽出します。ソースコードでは以下のようになります。</strong></p> <pre><code>Sub test() Dim ie As New InternetExplorer Dim doc As New HTMLDocument Dim ecoll As Object ie.Visible = True ie.navigate "http://test-sites.octoparse.com/?page_id=192" Do DoEvents Loop Until ie.readyState = READYSTATE_COMPLETE Set doc = ie.document Set ecoll = doc.getElementsByTagName("table") End Sub </code></pre> <p>Excelは、Excelシートの範囲属性を使って、またはExcelシートのセル属性を使って初期化することができます。VBAスクリプトの複雑さを軽減するために、収集データはワークブックに存在するシート1のExcelセル属性に初期化される。</p> <p><strong>3.実行ボタンを指定します。</strong><br /> マクロスクリプトの準備ができたら、サブルーチンをExcelボタンに渡して割り当て、VBAのモジュールを終了する。ボタンに適当な名前をつけておきます。この例では、ボタンは「データ抽出」として初期化されます。</p> <p>手順は以下になります。<br /> <a href="https://crieit.now.sh/upload_images/1f619d8c8e01785042d52fb1d7557b23605af393b1f16.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/1f619d8c8e01785042d52fb1d7557b23605af393b1f16.png?mw=700" alt="image" /></a><br /> <a href="https://crieit.now.sh/upload_images/b235535133d28cbc2d82958eaef19f9d605af39a3abc3.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/b235535133d28cbc2d82958eaef19f9d605af39a3abc3.png?mw=700" alt="image" /></a></p> <p><strong>4.ボタンを押して、以下のような情報が出力します。</strong><br /> <a href="https://crieit.now.sh/upload_images/d1e123dd88e8d9267e07485e99c00a0f605af3a3b008b.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/d1e123dd88e8d9267e07485e99c00a0f605af3a3b008b.png?mw=700" alt="image" /></a></p> <h1 id="四、Octoparseでスクレイピングする方法"><a href="#%E5%9B%9B%E3%80%81Octoparse%E3%81%A7%E3%82%B9%E3%82%AF%E3%83%AC%E3%82%A4%E3%83%94%E3%83%B3%E3%82%B0%E3%81%99%E3%82%8B%E6%96%B9%E6%B3%95">四、Octoparseでスクレイピングする方法</a></h1> <p>プログラミングが苦手、或いは英語のコードばかりなので苦手意識を持っている方は、スクレイピングツールの<a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/">Octoparse</a>はおすすめします。</p> <p>Octoparseは「<a target="_blank" rel="nofollow noopener" href="https://helpcenter.octoparse.jp/hc/ja/articles/360013561999-Octoparse%E3%82%92%E3%82%82%E3%81%A3%E3%81%A8%E7%9F%A5%E3%82%8B-">自動識別</a>」機能があるので、ページのURLを入力するだけで、Webページ上各項目のデータ(テキストとリンクを含む)、「次のページ」ボタン、「もっと見る」ボタン、およびページのスクロールダウンを自動的に検出し、タスク(Webクローラー)を自動的に生成することができます。</p> <p>早速ですが、Octoparseで自動化の魅力を体験してみましょう。</p> <p><strong>1.Octoparseを起動して、スクレイピングしたいWebページのURLを入力します。</strong><br /> 「抽出開始」 ボタンをクリックして進みます。<br /> <a href="https://crieit.now.sh/upload_images/761e0a72882545802c97a7319feeeef1605af3ac39190.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/761e0a72882545802c97a7319feeeef1605af3ac39190.png?mw=700" alt="image" /></a></p> <p><strong>2.Octoparseでページが読み込みされたら、自動的にページ上の内容を識別します。</strong><br /> 自動識別とは、自動的にページ上の必要なデータを検出して識別するという役立つ機能です。ポイント&クリックをする必要はなく、Octoparseは自動的に処理します。<br /> <a href="https://crieit.now.sh/upload_images/2359f12975aa9a679363209c1c928c6b605af3b32ce77.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/2359f12975aa9a679363209c1c928c6b605af3b32ce77.png?mw=700" alt="image" /></a></p> <p><strong>3.識別が完了すると、データプレビューで識別したデータを表示され、確認してから「ワークフローの生成」ボタンを押します。</strong><br /> <a href="https://crieit.now.sh/upload_images/95661bba8fe25a46fc835456536461a8605af3bb20a09.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/95661bba8fe25a46fc835456536461a8605af3bb20a09.png?mw=700" alt="image" /></a></p> <p><strong>4.これで簡単にWebクローラーが作成しました!</strong><br /> 上の「実行」ボタンをクリックして、すぐデータを抽出できます。簡単ではないでしょうか。<br /> <a href="https://crieit.now.sh/upload_images/b0b0d3e60908ec44ecfc6aa732366d03605af3c190b44.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/b0b0d3e60908ec44ecfc6aa732366d03605af3c190b44.png?mw=700" alt="image" /></a></p> <h1 id="五、まとめ"><a href="#%E4%BA%94%E3%80%81%E3%81%BE%E3%81%A8%E3%82%81">五、まとめ</a></h1> <p>VBAでスクレイピングは簡単にはできますが、<a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/5-anti-scraping-techniques-you-may-encounter/">複雑な構造</a>を持つWebサイト(JavaScript、AJAX技術を使っている動的サイトなど)では、VBAの機能はちょっと足りないかもしれません。<br /> それだけでなく、スクレイピングしようと思ったら、プログラミング言語とIT知識を勉強する必要があります。完璧に学ぶ時間がなく、効率的にスクレイピングがしたい、プログラミングが苦手、或いは英語のコードばかりなので苦手意識を持っている方は<a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/the-10-best-web-scraping-tools/">スクレイピングツール</a>はおすすめです。</p> <p><a href="https://crieit.now.sh/upload_images/9211be13dbf84c6b98b0da0ecbffb784605af3d24b4f0.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/9211be13dbf84c6b98b0da0ecbffb784605af3d24b4f0.png?mw=700" alt="image" /></a><br /> <a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/subscribe/trial?plan=std&utm_source=crieit&utm_medium=pic&utm_campaign=8872">今から無料トライアル!</a></p> <h2 id="関連記事"><a href="#%E9%96%A2%E9%80%A3%E8%A8%98%E4%BA%8B">関連記事</a></h2> <p><a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/creating-a-simple-web-crawler-in-php/">PHPで簡単なWebクローラーを作ってみた</a><br /> <a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/web-scraping-using-python/">PythonによるWebスクレイピングを解説</a><br /> <a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/web-scraping-using-python-vs-web-scraping-tool/">Python vs Octoparse!初心者向きのスクレイピング方法はどっち?</a><br /> <a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/a-complete-guide-to-web-scraping-job-postings/">【完全初心者向け】求人情報を一括で自動的に取得する方法公開!</a></p> Octoparse Japan tag:crieit.net,2005:PublicArticle/16753 2021-03-16T19:33:09+09:00 2021-03-16T19:33:55+09:00 https://crieit.net/posts/Web-4 Webページ上の画像を一括保存(ダウンロード)する方法4選 <p><a href="https://crieit.now.sh/upload_images/ae8cd4ac64bad36b6f9d25a55362b80d60508849accef.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/ae8cd4ac64bad36b6f9d25a55362b80d60508849accef.png?mw=700" alt="image" /></a><br /> 元記事:<a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/4-ways-to-scrape-images-from-web-pages-or-websites/">https://www.octoparse.jp/blog/4-ways-to-scrape-images-from-web-pages-or-websites/</a></p> <p>InstagramやPinterestなどの写真プラットフォームには非常に多くの素晴らしい写真があり、デザインの制作や商品の資料作成など画像素材を利用するシーンが様々です。</p> <p>保存したい画像が少ない場合は「右クリック → 名前を付けてファイルを保存」でも問題ないですが、複数あった場合は時間も手間もかかってしまうと思います。</p> <p>この記事では、Webサイトから画像を効率的に一括保存(ダウンロード)する4つの方法を紹介します。 数回のクリックで欲しい画像を簡単に手に入れることができますので、早速試してみましょう!</p> <h1 id="ブラウザツールで画像を一括保存する方法"><a href="#%E3%83%96%E3%83%A9%E3%82%A6%E3%82%B6%E3%83%84%E3%83%BC%E3%83%AB%E3%81%A7%E7%94%BB%E5%83%8F%E3%82%92%E4%B8%80%E6%8B%AC%E4%BF%9D%E5%AD%98%E3%81%99%E3%82%8B%E6%96%B9%E6%B3%95">ブラウザツールで画像を一括保存する方法</a></h1> <p>単一のWebページから画像をダウンロード場合は、ブラウザツールで十分です。<br /> もし複数のWebページから画像をダウンロードしたいならば、<a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/">Webスクレイピングツール</a>はおすすめです。</p> <h2 id="1. Firefoxを利用する場合"><a href="#1.+Firefox%E3%82%92%E5%88%A9%E7%94%A8%E3%81%99%E3%82%8B%E5%A0%B4%E5%90%88">1. Firefoxを利用する場合</a></h2> <p>以下の手順でサイトの画像を全てダウンロードすることができます。</p> <p><a href="https://crieit.now.sh/upload_images/e645b566d2f3748f7cf693b3c5ce86356050885e45270.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/e645b566d2f3748f7cf693b3c5ce86356050885e45270.png?mw=700" alt="image" /></a></p> <p>Firefoxで画像を取得したいWebサイトを開きます。空白部分を右クリックすると、「<strong>ページの情報を表示</strong>」のオプションをクリックします。そうすると、ページ情報が表示されます。</p> <p>上の「<strong>メディア</strong>」アイコンをクリックします。ダウンロードする画像のURLのリストが表示されます。「<strong>すべて選択 → 名前を付けて保存</strong>」をクリックします。指定したフォルダーに画像が保存されていれば完了です。</p> <p><a href="https://crieit.now.sh/upload_images/69495ece09cbda6fa144c2035d5a45096050886a150d6.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/69495ece09cbda6fa144c2035d5a45096050886a150d6.png?mw=700" alt="image" /></a></p> <h2 id="2. Chromeを利用する場合"><a href="#2.+Chrome%E3%82%92%E5%88%A9%E7%94%A8%E3%81%99%E3%82%8B%E5%A0%B4%E5%90%88">2. Chromeを利用する場合</a></h2> <p><a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/bulk-download-images-from-links-top-5-bulk-image-downloaders/">この記事から</a>紹介された一括ダウンロードツールを使って、全ての画像をダウンロードします。<br /> 今回はChromeの「<a target="_blank" rel="nofollow noopener" href="https://chrome.google.com/webstore/detail/image-downloader/cnpniohnfphhjihaiiggeabnkjhpaldj">Image downloader</a>」という拡張機能を試してみましょう。</p> <p>Chromeで画像を取得したいWebサイトを開きます。「Image downloader」というChromeの拡張機能を起動すると、このツールは自動的に小さな画像(例:サイトのアイコン、ロゴなど)を取り除き、通常サイズの写真だけを指定するという役立つフィルターを提供しています。</p> <p><a href="https://crieit.now.sh/upload_images/350e3f259b21d28cbb499af2a4037b52605088e253914.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/350e3f259b21d28cbb499af2a4037b52605088e253914.png?mw=700" alt="image" /></a></p> <h2 id="3. Webサイトの画像を一括でダウンロードするツール"><a href="#3.+Web%E3%82%B5%E3%82%A4%E3%83%88%E3%81%AE%E7%94%BB%E5%83%8F%E3%82%92%E4%B8%80%E6%8B%AC%E3%81%A7%E3%83%80%E3%82%A6%E3%83%B3%E3%83%AD%E3%83%BC%E3%83%89%E3%81%99%E3%82%8B%E3%83%84%E3%83%BC%E3%83%AB">3. Webサイトの画像を一括でダウンロードするツール</a></h2> <p>以上紹介した方法では、単一のWebページであれば使いやすいです。画像以外のデータ、Webスクレイピングツールは画像に関連するそれぞれのデータ(例として、商品名、商品価格、画像のURLなど)を抽出する最適化ツールです。「<a target="_blank" rel="nofollow noopener" href="https://imagecyborg.com/">IMAGE CYBORG</a>」はおすすめです。</p> <h1 id="Webスクレイピングツールで画像を一括保存する方法"><a href="#Web%E3%82%B9%E3%82%AF%E3%83%AC%E3%82%A4%E3%83%94%E3%83%B3%E3%82%B0%E3%83%84%E3%83%BC%E3%83%AB%E3%81%A7%E7%94%BB%E5%83%8F%E3%82%92%E4%B8%80%E6%8B%AC%E4%BF%9D%E5%AD%98%E3%81%99%E3%82%8B%E6%96%B9%E6%B3%95">Webスクレイピングツールで画像を一括保存する方法</a></h1> <h2 id="4. Webスクレイピングツールを挑戦してみましょう!"><a href="#4.+Web%E3%82%B9%E3%82%AF%E3%83%AC%E3%82%A4%E3%83%94%E3%83%B3%E3%82%B0%E3%83%84%E3%83%BC%E3%83%AB%E3%82%92%E6%8C%91%E6%88%A6%E3%81%97%E3%81%A6%E3%81%BF%E3%81%BE%E3%81%97%E3%82%87%E3%81%86%EF%BC%81">4. Webスクレイピングツールを挑戦してみましょう!</a></h2> <p>上記の単一のWebページの画像ダウンロードツールとは異なり、Webスクレイピングツール(ここでは<a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/">Octoparse</a>を例として)は必要な画像のURLを取得することが役立ちます。そして、すべてのURLを取得したら、画像を一括ダウンロードすることができます。</p> <h2 id="Octoparseの利用シーンは?"><a href="#Octoparse%E3%81%AE%E5%88%A9%E7%94%A8%E3%82%B7%E3%83%BC%E3%83%B3%E3%81%AF%EF%BC%9F">Octoparseの利用シーンは?</a></h2> <h4 id="・「複数Webページから画像をダウンロードしてほしい」"><a href="#%E3%83%BB%E3%80%8C%E8%A4%87%E6%95%B0Web%E3%83%9A%E3%83%BC%E3%82%B8%E3%81%8B%E3%82%89%E7%94%BB%E5%83%8F%E3%82%92%E3%83%80%E3%82%A6%E3%83%B3%E3%83%AD%E3%83%BC%E3%83%89%E3%81%97%E3%81%A6%E3%81%BB%E3%81%97%E3%81%84%E3%80%8D">・「複数Webページから画像をダウンロードしてほしい」</a></h4> <p><a href="https://crieit.now.sh/upload_images/19b93727212811c096b0f7e2d97b9d56605088fd077d0.gif" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/19b93727212811c096b0f7e2d97b9d56605088fd077d0.gif?mw=700" alt="image" /></a></p> <p><a target="_blank" rel="nofollow noopener" href="https://helpcenter.octoparse.jp/hc/ja/articles/360015281940-%E3%83%9A%E3%83%BC%E3%82%B8%E3%83%8D%E3%83%BC%E3%82%B7%E3%83%A7%E3%83%B3%E3%81%AE%E5%87%A6%E7%90%86-%E6%AC%A1%E3%81%B8-%E3%83%9C%E3%82%BF%E3%83%B3%E3%81%8C%E3%81%82%E3%82%8B%E5%A0%B4%E5%90%88-">ページネーション</a>を設定した上で、Octoparseは自動的に複数のページから画像のURLをスクレイピングします。作業自動化を通じて、Octoparseは操作の時間を節約できます。</p> <h4 id="・「無限にスクロールするWebサイトから画像をダウンロードしてほしい」"><a href="#%E3%83%BB%E3%80%8C%E7%84%A1%E9%99%90%E3%81%AB%E3%82%B9%E3%82%AF%E3%83%AD%E3%83%BC%E3%83%AB%E3%81%99%E3%82%8BWeb%E3%82%B5%E3%82%A4%E3%83%88%E3%81%8B%E3%82%89%E7%94%BB%E5%83%8F%E3%82%92%E3%83%80%E3%82%A6%E3%83%B3%E3%83%AD%E3%83%BC%E3%83%89%E3%81%97%E3%81%A6%E3%81%BB%E3%81%97%E3%81%84%E3%80%8D">・「無限にスクロールするWebサイトから画像をダウンロードしてほしい」</a></h4> <p><a href="https://crieit.now.sh/upload_images/54f4c2f528df6a3982a65faa0c80e63b605089175a503.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/54f4c2f528df6a3982a65faa0c80e63b605089175a503.png?mw=700" alt="image" /></a><br /> <strong>(Google 画像検索は無限スクロールを使用しています)</strong></p> <p>例として、無限スクロールを使用しており、新しいコンテンツの読み込みを有効にするために、下にスクロールする必要があります。Webスクレイピングツールは、すべての画像を読み込まれて取得できます。</p> <p>この記事で紹介したOctoparseには、人間の操作をシミュレート技術が使用されています。したがって、下までスクロールするように設定することができます。</p> <h4 id="・「画像だけでなく、それに関連する他の情報もほしい」"><a href="#%E3%83%BB%E3%80%8C%E7%94%BB%E5%83%8F%E3%81%A0%E3%81%91%E3%81%A7%E3%81%AA%E3%81%8F%E3%80%81%E3%81%9D%E3%82%8C%E3%81%AB%E9%96%A2%E9%80%A3%E3%81%99%E3%82%8B%E4%BB%96%E3%81%AE%E6%83%85%E5%A0%B1%E3%82%82%E3%81%BB%E3%81%97%E3%81%84%E3%80%8D">・「画像だけでなく、それに関連する他の情報もほしい」</a></h4> <p>例として、Eコマース業者は、ECサイトから抽出したいデータは商品画像だけではなく、価格やメーカー情報などの情報もほしいです。抽出したデータは見込み顧客育成、リスク管理、学術研究、市場分析にも使用できます。</p> <p><a href="https://crieit.now.sh/upload_images/3bca5d2a2fd64d5c59bc36d46366c3d16050892a74242.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/3bca5d2a2fd64d5c59bc36d46366c3d16050892a74242.png?mw=700" alt="image" /></a><br /> <strong>(Octoparseで楽天市場から抽出したデータ)</strong></p> <p>Octoparseでは、Amazonや楽天市場、食べログ、Bookingなどのサイトから簡単にスクレイピングするという<a target="_blank" rel="nofollow noopener" href="https://helpcenter.octoparse.jp/hc/ja/articles/360015816173-%E3%83%86%E3%83%B3%E3%83%97%E3%83%AC%E3%83%BC%E3%83%88%E3%83%A2%E3%83%BC%E3%83%89">タスクテンプレート</a>を提供しています。画像のURLだけでなく、商品やレストラン、ホテルなどの他の情報もスクレイピングすることができます。</p> <p><a href="https://crieit.now.sh/upload_images/ba6a6954579415b932ce9a246fa6549f605089344c26d.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/ba6a6954579415b932ce9a246fa6549f605089344c26d.png?mw=700" alt="image" /></a></p> <p><strong>(Octoparseの人気テンプレート)</strong></p> <p>これで、2つのデータセット(画像と関連する詳細情報)が手に入れたので、自作の商品データベースで市場調査を始めましょう。</p> <h1 id="初心者向けのチュートリアル"><a href="#%E5%88%9D%E5%BF%83%E8%80%85%E5%90%91%E3%81%91%E3%81%AE%E3%83%81%E3%83%A5%E3%83%BC%E3%83%88%E3%83%AA%E3%82%A2%E3%83%AB">初心者向けのチュートリアル</a></h1> <p><a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/how-to-scrape-and-bulk-download-images-from-any-website/">この記事は</a>、Octoparseで楽天市場から画像を一括保存するのチュートリアルです。<a target="_blank" rel="nofollow noopener" href="https://helpcenter.octoparse.jp/hc/ja/articles/360013585100-%E3%83%AC%E3%83%83%E3%82%B9%E3%83%B31-%E8%87%AA%E5%8B%95%E8%AD%98%E5%88%A5%E6%A9%9F%E8%83%BD%E3%81%A7%E3%83%87%E3%83%BC%E3%82%BF%E3%82%92%E6%8A%BD%E5%87%BA%E3%81%99%E3%82%8B">自動識別機能</a>を通じて、<strong>ノーコード(プログラミング不要)</strong>で、数回のクリックだけで簡単にスクレイピングできます。さらに、6分間で2000枚以上の画像URLを抽出することが可能です。一度Octoparseのコツを掴めば、他のWebサイトでも簡単に抽出できます。</p> <p><strong>関連記事</strong><br /> <a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/web-scraping">Webスクレイピングとは?</a><br /> <a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/top-5-web-scraping-tools-comparison">注目のWebスクレイピングツール5選を徹底比較!</a><br /> <a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/bulk-download-images-from-links-top-5-bulk-image-downloaders">画像を一括ダウンロードするのに超便利なツール5選</a><br /> <a target="_blank" rel="nofollow noopener" href="https://helpcenter.octoparse.jp/hc/ja/articles/360015455840-Amazon%E3%81%8B%E3%82%89%E5%95%86%E5%93%81%E6%83%85%E5%A0%B1%E3%82%92%E3%82%B9%E3%82%AF%E3%83%AC%E3%82%A4%E3%83%94%E3%83%B3%E3%82%B0%E3%81%99%E3%82%8B">Amazonから商品情報をスクレイピングする</a><br /> <a target="_blank" rel="nofollow noopener" href="https://helpcenter.octoparse.jp/hc/ja/articles/360015825593-%E6%A5%BD%E5%A4%A9%E5%B8%82%E5%A0%B4%E3%81%8B%E3%82%89%E5%95%86%E5%93%81%E4%BE%A1%E6%A0%BC%E3%82%92%E3%82%B9%E3%82%AF%E3%83%AC%E3%82%A4%E3%83%94%E3%83%B3%E3%82%B0%E3%81%99%E3%82%8B">楽天市場から商品価格をスクレイピングする</a><br /> <a target="_blank" rel="nofollow noopener" href="https://helpcenter.octoparse.jp/hc/ja/articles/360015573819-%E9%A3%9F%E3%81%B9%E3%83%AD%E3%82%B0%E3%81%8B%E3%82%89%E3%83%AC%E3%82%B9%E3%83%88%E3%83%A9%E3%83%B3%E6%83%85%E5%A0%B1%E3%82%92%E5%8F%96%E5%BE%97%E3%81%99%E3%82%8B">食べログからレストラン情報を取得する</a></p> Octoparse Japan tag:crieit.net,2005:PublicArticle/16729 2021-03-10T19:23:06+09:00 2021-03-10T19:23:06+09:00 https://crieit.net/posts/Web-60489e0ae2b7e Webサイトから画像を一括ダウンロードする方法 <p><a href="https://crieit.now.sh/upload_images/f5350c378d547ec047dee00a5ecd825460489d3d25baa.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/f5350c378d547ec047dee00a5ecd825460489d3d25baa.png?mw=700" alt="image" /></a><br /> 元記事:<a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/how-to-scrape-and-bulk-download-images-from-any-website/">https://www.octoparse.jp/blog/how-to-scrape-and-bulk-download-images-from-any-website/</a></p> <h1 id="1. Webサイトから画像を取得する方法"><a href="#1.+Web%E3%82%B5%E3%82%A4%E3%83%88%E3%81%8B%E3%82%89%E7%94%BB%E5%83%8F%E3%82%92%E5%8F%96%E5%BE%97%E3%81%99%E3%82%8B%E6%96%B9%E6%B3%95">1. Webサイトから画像を取得する方法</a></h1> <p>Webサイトから全ての画像を一括で保存したいとき、1枚ずつ保存するのは非常に面倒です。これは非常に退屈なプロセスであり、仕事の効率を低下させます。</p> <p>実際、Webスクレイピングツールは、この作業を自動化するの最適な選択肢です。Webページを無限にクリックする代わりに、5分以内にタスクを設定するだけで、<a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/what-is-a-web-crawler-and-how-does-it-work/">クローラー</a>がすべての画像URLを取得してくれます。画像を一括でダウンロードツールにコピーすると、わずか10分で完成させます。</p> <h1 id="2. Webスクレイピングツールをダウンロード"><a href="#2.+Web%E3%82%B9%E3%82%AF%E3%83%AC%E3%82%A4%E3%83%94%E3%83%B3%E3%82%B0%E3%83%84%E3%83%BC%E3%83%AB%E3%82%92%E3%83%80%E3%82%A6%E3%83%B3%E3%83%AD%E3%83%BC%E3%83%89">2. Webスクレイピングツールをダウンロード</a></h1> <p>まずは「<a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/the-10-best-web-scraping-tools/">Webスクレイピングツールにオススメの10選</a>」という記事から自分に合ったWebスクレイピングツールを探しましょう!今回は、上記の記事から紹介された<a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/">Octoparse</a>を例として紹介します。</p> <p>なお、これは簡単なガイドであり、プログラミングの経験は必要ありません。心配しないでください。</p> <p><a href="https://crieit.now.sh/upload_images/921cb10fcd16eb732d754672c6b3acf860489d541a0c2.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/921cb10fcd16eb732d754672c6b3acf860489d541a0c2.png?mw=700" alt="image" /></a><br /> <strong><em>Octoparseを<a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/Download">ダウンロードする</a></em></strong></p> <p><strong><em>注:Octoparseは無料プランを提供しています。このガイドに記載されている機能にお金を払う必要はありません。</em></strong></p> <h1 id="3. 2つのステップだけで、すべての画像URLを取得"><a href="#3.+2%E3%81%A4%E3%81%AE%E3%82%B9%E3%83%86%E3%83%83%E3%83%97%E3%81%A0%E3%81%91%E3%81%A7%E3%80%81%E3%81%99%E3%81%B9%E3%81%A6%E3%81%AE%E7%94%BB%E5%83%8FURL%E3%82%92%E5%8F%96%E5%BE%97">3. 2つのステップだけで、すべての画像URLを取得</a></h1> <h2 id="ステップ1: タスクを作成する"><a href="#%E3%82%B9%E3%83%86%E3%83%83%E3%83%971%3A+%E3%82%BF%E3%82%B9%E3%82%AF%E3%82%92%E4%BD%9C%E6%88%90%E3%81%99%E3%82%8B">ステップ1: タスクを作成する</a></h2> <p>1)Octoparseを起動します。スクレイピングしたいWebページのURLを入力します。「<strong>抽出開始</strong>」 ボタンをクリックして進みます。</p> <p><a href="https://crieit.now.sh/upload_images/d50a974d098f2150cf9eb7daa2b36d4660489d5fc66db.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/d50a974d098f2150cf9eb7daa2b36d4660489d5fc66db.png?mw=700" alt="image" /></a></p> <p>もうすぐホワイトデーですので、今回は楽天市場上のチョコレートの画像を例にしてみましょう。</p> <p>サンプルURL: <a target="_blank" rel="nofollow noopener" href="https://search.rakuten.co.jp/search/mall/チョコレート/">https://search.rakuten.co.jp/search/mall/チョコレート/</a></p> <p>(このリンクが無効になった場合は、楽天市場の別の検索結果のリンクを使ってください)</p> <p>2)Octoparseでページが読み込みされたら、自動的にページ上の内容を識別します。もし自動識別機能をオフする場合は、右上の操作ヒントパネルで 「<strong>Webページを自動識別する</strong>」、ページ上の内容を識別します。<a target="_blank" rel="nofollow noopener" href="https://helpcenter.octoparse.jp/hc/ja/articles/360013585100-%E3%83%AC%E3%83%83%E3%82%B9%E3%83%B31-%E8%87%AA%E5%8B%95%E8%AD%98%E5%88%A5%E6%A9%9F%E8%83%BD%E3%81%A7%E3%83%87%E3%83%BC%E3%82%BF%E3%82%92%E6%8A%BD%E5%87%BA%E3%81%99%E3%82%8B">自動識別</a>とは、自動的にページ上の必要なデータを検出して識別するという役立つ機能です。ポイント&クリックをする必要はなく、Octoparseは自動的に処理します。</p> <p><a href="https://crieit.now.sh/upload_images/70b8932a9984095d3fbd09b347cd6e5b60489d6bca8c3.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/70b8932a9984095d3fbd09b347cd6e5b60489d6bca8c3.png?mw=700" alt="image" /></a></p> <p>3)識別が完了すると、データプレビューで識別したデータを表示され、どのようなデータが取得されているかを確認することができます。「<strong>識別結果を切り替える</strong>」をクリックすると、ページの異なる場所の識別結果を指定することができます。「<strong>ワークフローを生成</strong>」をクリックして確認し、タスクを作成します。</p> <p><a href="https://crieit.now.sh/upload_images/50c7d27de50e4545324522e06a92b69860489d78a0905.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/50c7d27de50e4545324522e06a92b69860489d78a0905.png?mw=700" alt="image" /></a></p> <p>これで簡単に楽天市場のクローラーが作成しました!</p> <h2 id="ステップ2: タスクを実行する"><a href="#%E3%82%B9%E3%83%86%E3%83%83%E3%83%972%3A+%E3%82%BF%E3%82%B9%E3%82%AF%E3%82%92%E5%AE%9F%E8%A1%8C%E3%81%99%E3%82%8B">ステップ2: タスクを実行する</a></h2> <p>上の「<strong>実行</strong>」ボタンをクリックして、すぐタスクを実行できます。たった数分で数千件のデータを取得することができます。これがOctoparseのスピードです。一度Octoparseのコツをつかめば、以前Webデータを取得するための手作業で時間を無駄にしていたことを後悔するに違いありません。<br /> <a href="https://crieit.now.sh/upload_images/ee14452def08ba4d174ff1e658de5f9460489d85ae59a.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/ee14452def08ba4d174ff1e658de5f9460489d85ae59a.png?mw=700" alt="image" /></a></p> <p>これは、たった5分で抽出したデータです。実際、それはすべての画像のURLだけでなく、製品の詳細ページのデータもスクレイピングできます。これは、<a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/using-web-scraping-to-improve-business-analytics-and-intelligence">競合調査</a>や<a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/competitor-monitoring-for-price-strategy-and-product-planning/">EC(Eコマース)</a>分析をしている方には、非常に役立つツールです。</p> <h1 id="4. 数秒で画像を一括ダウンロード!"><a href="#4.+%E6%95%B0%E7%A7%92%E3%81%A7%E7%94%BB%E5%83%8F%E3%82%92%E4%B8%80%E6%8B%AC%E3%83%80%E3%82%A6%E3%83%B3%E3%83%AD%E3%83%BC%E3%83%89%EF%BC%81">4. 数秒で画像を一括ダウンロード!</a></h1> <p>すべての画像URLをExcelファイルに保存した状態で、<a target="_blank" rel="nofollow noopener" href="https://www.youtube.com/watch?v=NJ8O4HUUfag">この動画</a>から紹介された一括ダウンロードツールを使って、全ての画像をダウンロードします。今回はChromeの「<a target="_blank" rel="nofollow noopener" href="https://chrome.google.com/webstore/detail/tab-save/lkngoeaeclaebmpkgapchgjdbaekacki">Tab Save</a>」という拡張機能を例として試していきましょう。</p> <p><a href="https://crieit.now.sh/upload_images/c3bd348d576aaca9091be50739763d3460489d9a6822f.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/c3bd348d576aaca9091be50739763d3460489d9a6822f.png?mw=700" alt="image" /></a></p> <p>画像のURLをコピーしてタブ保存に貼り付け、ダウンロードをクリックすると、すべての画像が数秒でコンピュータにダウンロードされます。</p> <p><a href="https://crieit.now.sh/upload_images/5ec31461ea5d0d590e32eae35b0c4ea560489da36267b.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/5ec31461ea5d0d590e32eae35b0c4ea560489da36267b.png?mw=700" alt="image" /></a></p> <p>全体のプロセスはわずか10分かかります。楽天市場から画像の数千(サイトに応じて具体的なデータ件数も変わります)をダウンロードできます。ぜひ試してみてください!</p> <h1 id="もしタスクは不具合な状況がある場合…"><a href="#%E3%82%82%E3%81%97%E3%82%BF%E3%82%B9%E3%82%AF%E3%81%AF%E4%B8%8D%E5%85%B7%E5%90%88%E3%81%AA%E7%8A%B6%E6%B3%81%E3%81%8C%E3%81%82%E3%82%8B%E5%A0%B4%E5%90%88%E2%80%A6">もしタスクは不具合な状況がある場合…</a></h1> <p>今回の例で自動識別による生成したタスクは問題なく実行できますが、もしタスクは不具合な状況がある場合は、どのように修正すればいいでしょうか?</p> <h3 id="1. ページネーションが無効の場合"><a href="#1.+%E3%83%9A%E3%83%BC%E3%82%B8%E3%83%8D%E3%83%BC%E3%82%B7%E3%83%A7%E3%83%B3%E3%81%8C%E7%84%A1%E5%8A%B9%E3%81%AE%E5%A0%B4%E5%90%88">1. ページネーションが無効の場合</a></h3> <p>このステップでは、ページネーションを確認し、必要に応じて<a target="_blank" rel="nofollow noopener" href="https://helpcenter.octoparse.jp/hc/ja/articles/360015765513-XPath%E5%9F%BA%E7%A4%8E%E7%B7%A8-1-%E3%83%BC-XPath%E3%81%AE%E5%9F%BA%E6%9C%AC%E6%A6%82%E5%BF%B5">Xpath</a>を修正していきます。ページネーションについて<a target="_blank" rel="nofollow noopener" href="https://helpcenter.octoparse.jp/hc/ja/articles/360015281940-%E3%83%9A%E3%83%BC%E3%82%B8%E3%83%8D%E3%83%BC%E3%82%B7%E3%83%A7%E3%83%B3%E3%81%AE%E5%87%A6%E7%90%86-%E6%AC%A1%E3%81%B8-%E3%83%9C%E3%82%BF%E3%83%B3%E3%81%8C%E3%81%82%E3%82%8B%E5%A0%B4%E5%90%88-">こちら</a>でご参照ください。</p> <p>具体的には、ステップ「ページネーション」をダブルクリックすると、設定画面が表示されます。その設定画面には、自動識別で作成されたXpathがあります。</p> <p><strong>・どのように修正すればいいでしょうか?</strong><br /> 右側の小さな矢印をクリックして、右側の内蔵ブラウザで「<strong>次のページ</strong>」ボタンをクリックします。これはクローラーに「これが私がクリックしたいボタン」を指示しています。簡単でしょうね。</p> <p><a href="https://crieit.now.sh/upload_images/79f5fbfe4152d1b8f300d77443eb22b660489dad857b5.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/79f5fbfe4152d1b8f300d77443eb22b660489dad857b5.png?mw=700" alt="image" /></a></p> <p><strong>・もし上記の方法を修正してもダメな場合はどうすればいいでしょうか?</strong></p> <p>下記の画像の通りに、Xpathを入力してください。<br /> <code>(//a[@class="item -next nextPage"][contains(string(),"次のページ")][not(@disabled)])[1]</code></p> <p><a href="https://crieit.now.sh/upload_images/b41344abcf2335f6b1c9b76b7dfd8e1360489db7bee43.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/b41344abcf2335f6b1c9b76b7dfd8e1360489db7bee43.png?mw=700" alt="image" /></a></p> <h3 id="2. 画像が読み込まないの場合"><a href="#2.+%E7%94%BB%E5%83%8F%E3%81%8C%E8%AA%AD%E3%81%BF%E8%BE%BC%E3%81%BE%E3%81%AA%E3%81%84%E3%81%AE%E5%A0%B4%E5%90%88">2. 画像が読み込まないの場合</a></h3> <p>ページが完全に読み込みされるため、スクロールダウンの設定が必要となります。このステップは、スクロールダウンを設定することです。Octoparseで数回のクリックするだけで設定できます!</p> <p>ワークフローに戻って、「<strong>Webページを開く</strong>」をダブルクリックし、「<strong>Webページを読み込んだ後</strong>」で「スクロールダウン」にチェックを入れ、2秒間隔でスクロール1回、回数50回を設定します。</p> <p><a href="https://crieit.now.sh/upload_images/ddac9cf9e67bc63c79d4388e2779a23e60489dc8c71f7.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/ddac9cf9e67bc63c79d4388e2779a23e60489dc8c71f7.png?mw=700" alt="image" /></a></p> <p>これでタスクの修正は完了です!</p> <h1 id="5. まとめ"><a href="#5.+%E3%81%BE%E3%81%A8%E3%82%81">5. まとめ</a></h1> <ol> <li>Octoparseは、無料プランも提供しているWebスクレイピングツールです。ノーコード技術を使うため、非エンジニアでもスクレイピングすることができます。Webスクレイピングプロジェクトを1から始める最適なツールです。</li> <li>Octoparseの自動識別機能を利用して、Webサイトから簡単にデータを取得することができます。これにより、他のツールでややこしいステップ設定から解放されます。</li> <li>自動識別機能を利用して、Xpathを書く必要はありません!ポイント&クリックだけでテキストやボタンなどの内容を指定できます。これは最もやりやすい方法です。</li> </ol> <p><strong>参考記事:</strong><br /> <a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/bulk-download-images-from-links-top-5-bulk-image-downloaders/">画像を一括ダウンロードするのに超便利なツール5選</a><br /> <a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/top-5-web-scraping-tools-comparison">注目のWebスクレイピングツール5選を徹底比較!</a><br /> <a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/3-challenges-to-extract-data-from-ecommerce-websites">ECサイトからデータを抽出する3つの課題</a><br /> <a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/data-driven-ecommerce-pricing-strategy-using-web-scraping">Webスクレイピングによる価格戦略・価格の決め方</a></p> Octoparse Japan tag:crieit.net,2005:PublicArticle/15907 2020-05-22T10:17:55+09:00 2020-05-22T10:17:55+09:00 https://crieit.net/posts/XPath-2-XPath XPath基礎編(2) ー XPathの書き方 <p>前回の記事では、<a href="https://crieit.net/posts/XPath-1-XPath">XPathの基本概念</a>を簡単に紹介しました。今回はXPathによるWebページ(HTML)からデータを指定・取得する方法、つまりXPathの書き方を紹介します。</p> <h1 id="1.タグ(要素)で指定する"><a href="#1.%E3%82%BF%E3%82%B0%EF%BC%88%E8%A6%81%E7%B4%A0%EF%BC%89%E3%81%A7%E6%8C%87%E5%AE%9A%E3%81%99%E3%82%8B">1.タグ(要素)で指定する</a></h1> <p>下記のHTMLサンプルで、文章が のように、といった記号で囲まれているのが分かります。このようなといった記号を、タグと言います。</p> <pre><code><タグ名>ここにコンテンツが入ります... </タグ名> </code></pre> <p>最初のタグを「開始タグ」、終わりのタグを「終了タグ」といいます。そしてこの開始タグから終了タグまでの全体を、要素と呼びます。</p> <p>下記のHTMLの中で赤色で表示された部分はタグです。(Firefoxで青色、Chromeでは紫色で表示されます。)<br /> <a href="https://crieit.now.sh/upload_images/ac2152aaa3a20ce773412b967f786c335ec5f9c9b9231.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/ac2152aaa3a20ce773412b967f786c335ec5f9c9b9231.png?mw=700" alt="image" /></a></p> <p>下記はHTMLでよく見かけるタグのまとめです。詳しくのは<a target="_blank" rel="nofollow noopener" href="https://www.tagindex.com/html5/elements/">この記事</a>を合わせてご覧ください!<br /> <a href="https://crieit.now.sh/upload_images/3b23cd0e54eb80bd11f5914238779f8b5ec5fa2b21fb0.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/3b23cd0e54eb80bd11f5914238779f8b5ec5fa2b21fb0.png?mw=700" alt="image" /></a></p> <p><strong>XPathの最も一般的な書き方は、スラッシュ “/” で区切りながらタグを記述します。</strong></p> <p>例えば、このHTMLから『Harry Potter』を取得したい場合は、ツリー構造の上から順に『htmlタグ→bodyタグ→h1タグ』と指定できます。次のように書きます。</p> <pre><code>/html/body/h1 </code></pre> <p>また、『//』を用いて、途中までのパスを省略することができます。</p> <pre><code>//h1 </code></pre> <p><a href="https://crieit.now.sh/upload_images/73909d4648ca098024e571d5d2c90ada5ec5fa7109dbf.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/73909d4648ca098024e571d5d2c90ada5ec5fa7109dbf.png?mw=700" alt="image" /></a></p> <p>タグを複数に合致する場合に、N番目のタグを指定することができます。この例では、『7,631円』を取得する場合、「div」の行から2行目の「span」であるため、次のように書きます。</p> <pre><code>//div/span[2] </code></pre> <p>抽象化にすると、タグ(要素)で書くXPath構文はこうなります。</p> <pre><code>//タグ名 //タグ名/タグ名 </code></pre> <h1 id="2.属性で指定する"><a href="#2.%E5%B1%9E%E6%80%A7%E3%81%A7%E6%8C%87%E5%AE%9A%E3%81%99%E3%82%8B">2.属性で指定する</a></h1> <p>属性とはタグの中に記載されていて、タグの情報を細かく表すものです。タグに属性をつけることで、要素の効果を指定したり、具体的な指示を付け加えることが出来ます。属性は通常、「id="booksTitle"」のように表示されます。なお、属性は複数指定する事も可能です。</p> <pre><code><タグ名 属性名="属性値"> </code></pre> <p>最も一般的な属性には、href、title、style、src、id、classなどがあります。詳しくはこの記事を合わせてご覧ください!</p> <p><strong>XPathでは属性を『@』の関数で表します。</strong></p> <p>例えば、『Harry Potter』を取得したい場合、XPathは次のように書きます。</p> <pre><code>//h1[@id="booksTitle"] </code></pre> <p><a href="https://crieit.now.sh/upload_images/74f53e19cdd3d7db9d3aaa665416865e5ec5fa9fbdc81.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/74f53e19cdd3d7db9d3aaa665416865e5ec5fa9fbdc81.png?mw=700" alt="image" /></a></p> <p>抽象化にすると、属性で書くXPath構文はこうなります。</p> <pre><code>//タグ名[@属性名="属性値"] </code></pre> <p>もし同じ属性を持つすべての要素を取得する場合、次のように書きます。</p> <pre><code>//*[@属性名="属性値"] </code></pre> <h1 id="3.テキストで指定する"><a href="#3.%E3%83%86%E3%82%AD%E3%82%B9%E3%83%88%E3%81%A7%E6%8C%87%E5%AE%9A%E3%81%99%E3%82%8B">3.テキストで指定する</a></h1> <p>下記のようにタグで囲まれているのはテキストです。</p> <pre><code><タグ名>ここにテキストが入ります... </タグ名> </code></pre> <p>Webページからデータを取得するのは、通常ページ内のコンテンツまたはテキストを取得することです。ですから、取得したいテキストを直接指定することができます。</p> <p><strong>XPathではテキストを『text()』の関数で表します。</strong></p> <p>例えば、『Harry Potter』を取得したい場合、テキストで指定すると、次のように書きます。</p> <pre><code>//h1[text()="Harry Potter"] </code></pre> <p><a href="https://crieit.now.sh/upload_images/606ad984d03cb33dbcf324b48fe3ef3a5ec5fae570088.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/606ad984d03cb33dbcf324b48fe3ef3a5ec5fae570088.png?mw=700" alt="image" /></a></p> <p>抽象化にすると、属性で書くXPath構文はこうなります。</p> <pre><code>//タグ名[text()="取得するテキスト"] </code></pre> <p>もし同じテキストを持つすべての要素を取得する場合、次のように書きます。</p> <pre><code>//*[text()="取得するテキスト"] </code></pre> <h1 id="4.タグ関係で指定する"><a href="#4.%E3%82%BF%E3%82%B0%E9%96%A2%E4%BF%82%E3%81%A7%E6%8C%87%E5%AE%9A%E3%81%99%E3%82%8B">4.タグ関係で指定する</a></h1> <p>HTMLのツリー構造において、すべての要素が親子/兄弟関係を持っています。</p> <p>1つまたは複数の要素を含む要素は親要素と呼ばれ、含まれる要素は子要素です。子要素は1つのみの親があり、親の開始タグと終了タグの間にあります。同じ親を持つ要素は兄弟要素と呼ばれます。</p> <p>具体的な例も見てみましょう。</p> <p>以下のサンプルは、[body]要素を基点に、[body]要素は[h1]要素と[div]要素の親で、[h1]要素と[div]要素は、[body]要素の子です。親子/兄弟関係にある要素を取得し、それぞれにスタイルを変更する例です。</p> <p>[h1]要素と[div]要素は、同じ親[body]要素を持つため、兄弟要素です。</p> <p>また、[div]要素は2つの[span]要素の親ですから、2つの[span]要素は[body]要素の子孫要素です。</p> <p><a href="https://crieit.now.sh/upload_images/ac2152aaa3a20ce773412b967f786c335ec5fb00d4eb2.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/ac2152aaa3a20ce773412b967f786c335ec5fb00d4eb2.png?mw=700" alt="image" /></a></p> <p>カレント要素を基点として、親子、もしくは兄弟関係にある要素を取得することができます。例えば、『7,631円』を取得したい場合、タグの関係で指定すると、下記のように書くことができます。</p> <ul> <li><strong>[div]要素の子要素とする場合</strong></li> </ul> <pre><code>//div/span[2] </code></pre> <ul> <li><strong>[body]要素の子孫要素とする場合</strong></li> </ul> <pre><code>//body//span[2] </code></pre> <ul> <li><strong>[span class="author notFaded"]要素の兄弟要素とする場合</strong></li> </ul> <pre><code>//span[@class="author notFaded"]/following-sibling::span[1] </code></pre> <ul> <li><strong>[span class="tax_postage"]要素の兄弟要素とする場合</strong></li> </ul> <pre><code>//span[@class="tax_postage"]/preceding-sibling::span[1] </code></pre> <p>兄弟関係のあるタグを指定するには『following-sibling::』と『preceding-sibling::』という2つの関数をよく使います。</p> <p><strong>『following-sibling::』は、指定された要素より後の兄弟要素を指定する<br /> 『preceding-sibling::』は、指定された要素より前の兄弟要素を指定する</strong></p> <p>『following-sibling::』は、テーブル要素を指定する時に大活躍します。例えば、下記のHTMLサンプルがあります。<br /> <a href="https://crieit.now.sh/upload_images/47e4d5aa57d6e1622c851c7ab7d081235ec5fb78228ea.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/47e4d5aa57d6e1622c851c7ab7d081235ec5fb78228ea.png?mw=700" alt="image" /></a></p> <p>このHTMLはページに変更すると、以下のようなテーブルの形になります。<br /> <a href="https://crieit.now.sh/upload_images/d31f11d0dc981223209a01066480dfcd5ec5fb8c89537.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/d31f11d0dc981223209a01066480dfcd5ec5fb8c89537.png?mw=700" alt="image" /></a></p> <p>この例では、店名の『12345』取得します。ただし、[td]要素が複数あり、<strong>//td[1]</strong> で対応できなくなります。また、もし複数のページから、同じ構造のテーブルを一括取得する場合、固定的な値「店名」を基点として、『following-sibling::』を使うほうが薦めです。次のように書きます。</p> <pre><code>//th[text()="店名"]/following-sibling::td[1] </code></pre> <p><a href="https://crieit.now.sh/upload_images/bf91fbab825806d55d50077a1188024a5ec5fb9c4b147.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/bf91fbab825806d55d50077a1188024a5ec5fb9c4b147.png?mw=700" alt="image" /></a></p> <p>抽象化にすると、タグ関係で書くXPath構文はこうなります。<br /> <a href="https://crieit.now.sh/upload_images/79fa6ebb0e474fa3720643700236f4145ec5fbb4e1ce5.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/79fa6ebb0e474fa3720643700236f4145ec5fbb4e1ce5.png?mw=700" alt="image" /></a><br /> もし上記の構文で複数に合致する場合に、<strong>[N]</strong> を付けてN番目のタグを指定することができます。</p> <p>いかがでしょうか?以上は最も使われるXPath書き方です。さっそくお試してみてください。次回はXPathによく使われる関数を紹介します。お楽しみに!</p> <p>元記事:<a target="_blank" rel="nofollow noopener" href="https://helpcenter.octoparse.jp/hc/ja/articles/360013122059">https://helpcenter.octoparse.jp/hc/ja/articles/360013122059</a></p> Octoparse Japan tag:crieit.net,2005:PublicArticle/15905 2020-05-21T12:08:13+09:00 2020-05-21T12:08:13+09:00 https://crieit.net/posts/XPath-1-XPath XPath基礎編(1)ー XPathの基本概念 <p>Webサイト上からデータを自動的に取得するには2つの方法があります。1つはPythonなどのプログラミング言語でWebクローラーを作る、もう1つは<a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/">Octoparse</a>のような<a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/top-30-free-web-scraping-software/">Webスクレイピングツール</a>でデータを取得するのです。しかし、どれにしても、XPathは重要な役割を果たしています。XPathの書き方が分かれば、データをより正しくて効率的に取得できます。</p> <p>それでXPathのシリーズではXPathの基本概念からXPathの書き方、応用まで詳しく紹介したいと思います。</p> <p>この記事では、XPathの基本概念を簡単に紹介します。</p> <h1 id="1. XPathとは?"><a href="#1.+XPath%E3%81%A8%E3%81%AF%EF%BC%9F">1. XPathとは?</a></h1> <p><a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/essential-for-web-scraping-xpath-introduction/">XPath</a> (XML Path Language)とは、ツリー構造となっているXML/HTMLドキュメントからの要素や属性値などを指定するための簡潔な構文(言語)です。<br /> Webページは通常HTMLで記述されるから、XPathはWebページの情報を取得する時によく利用します。ブラウザ(Chrome、Firefoxなど)でWebページのHTMLを表示するする場合、F12キーを押すことで、対応するHTMLドキュメントに簡単にアクセスできます。<br /> <a href="https://crieit.now.sh/upload_images/9df9699255a9f1dfaaa6c977dbd9c7f85ec5ef58a99b5.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/9df9699255a9f1dfaaa6c977dbd9c7f85ec5ef58a99b5.png?mw=700" alt="image" /></a></p> <h1 id="2. XPathの仕組み"><a href="#2.+XPath%E3%81%AE%E4%BB%95%E7%B5%84%E3%81%BF">2. XPathの仕組み</a></h1> <p>XPathは具体的にはどのように動作するのかを見てみましょう。下記の画像はHTMLドキュメントの一部です。<br /> <a href="https://crieit.now.sh/upload_images/adab33ab3d7b51a493bb3cfb063f098b5ec5efa851b61.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/adab33ab3d7b51a493bb3cfb063f098b5ec5efa851b61.png?mw=700" alt="image" /></a></p> <p>HTMLは、ツリー構造のように、異なるレベルのがあります。この例では、レベル1は<strong>bookstore</strong>で、レベル2は<br /> <strong>book</strong>です。<strong>Title、author、year、price</strong>はすべてレベル3です。</p> <p>山括弧(など)を含むテキストはタグと呼ばれます。HTMLの要素は通常、開始タグと終了タグで構成され、その間にコンテンツが挿入されます。以下の形になります。</p> <pre><code><○○>(開始タグ)ここにコンテンツが入ります... </○○>(終了タグ) </code></pre> <p>XPathはスラッシュ “/” で区切りながら階層を記述し、基準となるノードから別のノードを指定できます。URLと似ています。この例では、要素「author」を検索する場合、XPathは次のようになります。</p> <pre><code>/bookstore/book/author </code></pre> <p>それがどのように機能するかをよりよく理解するには、コンピューター上の特定のファイルを見つける方法を参照してください。<br /> <a href="https://crieit.now.sh/upload_images/0620d07afe9f4535ee22c558c2a575fb5ec5ef88cc427.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/0620d07afe9f4535ee22c558c2a575fb5ec5ef88cc427.png?mw=700" alt="image" /></a></p> <p>「author」という名前のファイルを見つけるには、正しいファイルパスは <strong>\ bookstore \ book \ author</strong>です。</p> <p>コンピューター上のすべてのファイルには独自のパスがあるように、Webページ上の要素もパスがあります。そのパスはXPathで記述されています。</p> <p>ルート要素(ドキュメントの一番上の要素)から始まり、中にあるすべての要素を経由して目標要素に至るXPathは、絶対XPathと呼ばれます。</p> <pre><code>例: /html/body/div/div/div/div/div/div/div/div/div/span/span/span… </code></pre> <p>絶対XPathは長くて混乱する可能性があるため、絶対XPathを単純化するために、「//」を使用して途中までのパスを省略することができます(短いXPathとも呼ばれる)。</p> <p>たとえば、</p> <pre><code>絶対XPath:  /bookstore/book/author 短いXPath:  //author </code></pre> <h1 id="3. XPathを表示・書くには"><a href="#3.+XPath%E3%82%92%E8%A1%A8%E7%A4%BA%E3%83%BB%E6%9B%B8%E3%81%8F%E3%81%AB%E3%81%AF">3. XPathを表示・書くには</a></h1> <h2 id="【Google Chromeの場合】"><a href="#%E3%80%90Google+Chrome%E3%81%AE%E5%A0%B4%E5%90%88%E3%80%91">【Google Chromeの場合】</a></h2> <p>Chromeでこのページを表示し、右クリックメニューの[検証]から開発者ツールを表示します。Elementタブのhtmlで、要素を右クリックします。メニューの[Copy] → [Copy XPath ] でその要素を取得するためのXPathがクリップボードにコピーされます。<br /> <a href="https://crieit.now.sh/upload_images/7abc7bfcf22757417e5d1de2508ecd645ec5efc5ddd9d.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/7abc7bfcf22757417e5d1de2508ecd645ec5efc5ddd9d.png?mw=700" alt="image" /></a></p> <p>表示されているElementタブのhtmlから “Ctrl + F” で検索欄を表示します。XPathを入力すると、得られる要素が選択されるはずです。<br /> <a href="https://crieit.now.sh/upload_images/26083b025f9b75340b4e0133bc0d3c885ec5efd93cb43.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/26083b025f9b75340b4e0133bc0d3c885ec5efd93cb43.png?mw=700" alt="image" /></a></p> <p>また、「XPath Helper」という拡張機能を追加することもできます。XPathを入力すると、一致する結果が表示されます。(<a target="_blank" rel="nofollow noopener" href="https://chrome.google.com/webstore/detail/xpath-helper/hgimnogjllphhhkhlmebbmlgjoejdpjl?hl=zh-CN">XPath Helperをインストールする</a>)<br /> <a href="https://crieit.now.sh/upload_images/2a1ec783d7eb286b630a0cec3a3a6a0f5ec5efeb6a203.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/2a1ec783d7eb286b630a0cec3a3a6a0f5ec5efeb6a203.png?mw=700" alt="image" /></a></p> <p>​</p> <h2 id="【Firefoxの場合】 "><a href="#%E3%80%90Firefox%E3%81%AE%E5%A0%B4%E5%90%88%E3%80%91%E3%80%80">【Firefoxの場合】 </a></h2> <p>Firefoxの旧バージョンに搭載されている拡張機能「Firebug」が利用できます。(<a target="_blank" rel="nofollow noopener" href="https://helpcenter.octoparse.jp/hc/ja/articles/360015765193-Firebug-FireXPath%E6%8B%A1%E5%BC%B5%E6%A9%9F%E8%83%BD%E3%82%92%E3%82%A4%E3%83%B3%E3%82%B9%E3%83%88%E3%83%BC%E3%83%AB%E3%81%99%E3%82%8B%E6%96%B9%E6%B3%95">Firebug&FireXPath拡張機能をインストールする方法</a>)</p> <p>FirefoxでWebページを開く➡Firebugボタンをクリック➡ページ内の要素をクリック➡その要素のXPathが表示されます。<br /> <a href="https://crieit.now.sh/upload_images/f00ff934aa298fe710ed30ead91c5db95ec5f00a607c0.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/f00ff934aa298fe710ed30ead91c5db95ec5f00a607c0.png?mw=700" alt="image" /></a></p> <p>以上はXPathの基本概念でした。次回はXPathの書き方を紹介しますので、お楽しみにしてください!</p> <p>元記事:<a target="_blank" rel="nofollow noopener" href="https://helpcenter.octoparse.jp/hc/ja/articles/360015765513">https://helpcenter.octoparse.jp/hc/ja/articles/360015765513</a></p> Octoparse Japan tag:crieit.net,2005:PublicArticle/15864 2020-04-23T15:43:49+09:00 2020-04-23T15:43:49+09:00 https://crieit.net/posts/Octoparse-8-1-Beta スクレイピング業界の変革|Octoparse 新バージョン 8.1 Beta がリリース! <p><a href="https://crieit.now.sh/upload_images/83fd1e8a036ec55de62793094109faa55ea1386632f82.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/83fd1e8a036ec55de62793094109faa55ea1386632f82.png?mw=700" alt="image" /></a></p> <p>Webスクレイピングツールである<a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/">Octoparse</a>の新バージョン ver 8.1 (ダウンロードは<a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/Download">こちら</a>)が2020年4月15日よりリリースされました。今回の新バージョンのリリースでは、、Webページの自動認識機能の追加と内蔵ブラウザのアップグレードにより、パフォーマンスが向上し、データ取得の効率を大幅に改善しました。 また、ユーザインターフェースの改善により、インストールからタスク作成、実行中の操作まで、使いやすさも向上しました。</p> <p>今回の主なバージョンアップ項目は以下のようになります。</p> <h1 id="1.ハンズフリーでデータ抽出が可能"><a href="#1.%E3%83%8F%E3%83%B3%E3%82%BA%E3%83%95%E3%83%AA%E3%83%BC%E3%81%A7%E3%83%87%E3%83%BC%E3%82%BF%E6%8A%BD%E5%87%BA%E3%81%8C%E5%8F%AF%E8%83%BD">1.ハンズフリーでデータ抽出が可能</a></h1> <p>「Webページの自動認識」機能を追加するにより、WebページのURLアドレスを入力するだけで、Octoparseは自動的にWebページを識別し、ワークフローを自動的に生成するようになります。Webページ上のテキスト、画像、リンクなどの情報を識別でき、収集するデータフィールド、ページネーション、スクロールダウンなどの設定を自動的に推奨できます。複数の認識結果が表示され、簡単に切り替えられ、一般的なニーズを満たすことができると思われます。超初心者でも手軽にデータをスクレイピングできるようになりました!</p> <h1 id="2.高度なブラウザ互換性"><a href="#2.%E9%AB%98%E5%BA%A6%E3%81%AA%E3%83%96%E3%83%A9%E3%82%A6%E3%82%B6%E4%BA%92%E6%8F%9B%E6%80%A7">2.高度なブラウザ互換性</a></h1> <p>内蔵ブラウザをFirefoxからGoogle Chromeに切り替えました。以前のバージョンで読み込めなかったWebサイトは、Octoparse 8.1ですぐに読み込めるようになります。あらゆるWebサイトがOctoparseの内蔵ブラウザに開けられるように努めています。</p> <h1 id="3.より高速なスクレイピング速度"><a href="#3.%E3%82%88%E3%82%8A%E9%AB%98%E9%80%9F%E3%81%AA%E3%82%B9%E3%82%AF%E3%83%AC%E3%82%A4%E3%83%94%E3%83%B3%E3%82%B0%E9%80%9F%E5%BA%A6">3.より高速なスクレイピング速度</a></h1> <p>Webデータ収集のプロセスにおいて、更なる高速化が求められています。スクレイピング速度も、高品質のスクレイピングツールのコア競争力です。以前のバージョンと比べて、Octoparse 8.1は、10倍高速で応答性が向上しています。OP 7.0が100件データを抽出するのに21分41秒かかりましたが、OP 8.1が同じWebページから同じ量のデータを取得するのに2分しかかかりませんでした。</p> <h1 id="まとめ"><a href="#%E3%81%BE%E3%81%A8%E3%82%81">まとめ</a></h1> <p>新バージョンに関する詳細はこの記事をご覧ください。Octoparseへのご意見、アドバイスなどがございましたら、ぜひご遠慮なくお寄せください。Octoparseは引き続きより良いサービス・機能を提供できるよう努めております。</p> <p>元記事:<a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/octoparse-81-release-features/">スクレイピング業界の変革|Octoparse 新バージョン 8.1 Beta がリリース!</a></p> Octoparse Japan tag:crieit.net,2005:PublicArticle/15682 2020-01-14T11:58:31+09:00 2020-01-14T11:58:31+09:00 https://crieit.net/posts/web-scraping-using-python PythonによるWebスクレイピングを解説 <p>価格監視、ビジネス分析などのデータ関連プロジェクトを実施する場合、常にWebサイトからデータをエクセルに記録する必要があります。ただし、データを1行ずつコピペするのは時代遅れになり、<a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/web-scraping-introduction/">Webスクレイピング</a>におけるニーズが高まっています。この記事では、Webデータを自動収集する方法、つまりPythonでWebスクレイピングを行う方法を説明します。</p> <h1 id="ステップ0:はじめに"><a href="#%E3%82%B9%E3%83%86%E3%83%83%E3%83%970%EF%BC%9A%E3%81%AF%E3%81%98%E3%82%81%E3%81%AB">ステップ0:はじめに</a></h1> <p>Webスクレイピングとは、Webサイトからデータを取得するのに役立つ技術です。Pythonなどのプログラミング言語以外に、APIまたは<a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/">Octoparse</a>のような<a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/top-30-free-web-scraping-software">スクレイピングツール</a>もWebスクレイピングを行うことができます。</p> <p>AirbnbやTwitterなどの大規模サイトの場合、サイトにある情報をできるだけ広く共有するために、API を通してデータにプログラムレベルでアクセスし、企業、開発者、利用者に提供します。APIはApplication Programming Interfacesの略で、2つのアプリケーションが互いに通信できるソフトウェアビルディングブロックです。ほとんどの人にとって、APIはデータを取得するための最も適したアプローチです。</p> <p>ただし、全てのサイトはAPIサービスを提供するわけではありません。APIを提供しても、取得できるデータが必要なものではない場合もあります。したがって、Pythonを活用してWebクローラーを自作することは、強力で柔軟なソリューションになります。</p> <p><strong>では、なぜPythonが選ばれた言語なのでしょうか?</strong></p> <p><strong>柔軟性:</strong> 私たちが知っているように、Webサイトはよく更新されます。コンテンツだけでなく、Web構造も頻繁に変更されます。Pythonは動的に入力可能で生産性が高いため、使いやすい言語です。したがって、はコードを簡単に変更し、Webサイトの更新速度に追いつくことができます。</p> <p><strong>強力:</strong> Pythonには、有用で成熟したライブラリがたくさんあります。例えば、Requests、BeautifulSoupは、URLを取得し、Webページから情報を引き出すのに役立ちます。Seleniumは、Webクローラーが人間のブラウジング動作を真似できるようにすることで、一部のスクレイピング防止手法を回避するのに役立ちます。さらに、re、numpy、およびpandasを使用して、データのクリーンアップと処理を行うことができます。</p> <p>それでは、PythonによるWebスクレイピングの旅を始めましょう!</p> <h1 id="ステップ1:Pythonライブラリをインポートする"><a href="#%E3%82%B9%E3%83%86%E3%83%83%E3%83%971%EF%BC%9APython%E3%83%A9%E3%82%A4%E3%83%96%E3%83%A9%E3%83%AA%E3%82%92%E3%82%A4%E3%83%B3%E3%83%9D%E3%83%BC%E3%83%88%E3%81%99%E3%82%8B">ステップ1:Pythonライブラリをインポートする</a></h1> <p>このチュートリアルでは、Yelpからレビューをスクレイピングする方法を示します。BeautifulSoupとRequestsの2つのライブラリを使用します。これらの2つのライブラリは、PythonでWebクローラーを構築する際に一般的に使用されます。最初のステップは、この2つのライブラリをPythonにインポートして、これらのライブラリの関数を使用できるようにすることです。</p> <p><img src="https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/262932/ee38043b-1cf0-5edb-3018-cde7f861a517.png" alt="ライブラリをインポートする.png" /></p> <h1 id="ステップ2:WebページからHTMLを抽出する"><a href="#%E3%82%B9%E3%83%86%E3%83%83%E3%83%972%EF%BC%9AWeb%E3%83%9A%E3%83%BC%E3%82%B8%E3%81%8B%E3%82%89HTML%E3%82%92%E6%8A%BD%E5%87%BA%E3%81%99%E3%82%8B">ステップ2:WebページからHTMLを抽出する</a></h1> <p><a target="_blank" rel="nofollow noopener" href="https://www.yelp.com/biz/milk-and-cream-cereal-bar-new-york?osq=Ice+Cream">https://www.yelp.com/biz/milk-and-cream-cereal-bar-new-york?osq=Ice+Cream</a> からレビューを抽出しようとします。まず、URLという変数にURLを保存します。次に、このWebページのコンテンツにアクセスし、Requestsでurlopen()関数を使用して、HTMLを「ourUrl」に保存できます。</p> <p><img src="https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/262932/3ed8515c-2ae9-1692-e7c5-b4b5ca659249.png" alt="HTMLを抽出する.png" /></p> <p>それで、BeautifulSoupを使ってWebページを解析します。</p> <p><img src="https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/262932/b0630902-1ea5-36fa-5050-415a3826eddf.png" alt="Webページを解析.png" /></p> <p>このWebサイトの生のHTMLである「Soup」ができたので、prettify()と呼ばれる関数を使用して生データを消去し、それを印刷して「Soup」のHTMLのネスト構造を確認できます。</p> <p><img src="https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/262932/19ab0e0e-7b15-0285-54d3-7e35f7db4357.png" alt="prettify.png" /></p> <h1 id="ステップ3:レビューを見つけて抽出する"><a href="#%E3%82%B9%E3%83%86%E3%83%83%E3%83%973%EF%BC%9A%E3%83%AC%E3%83%93%E3%83%A5%E3%83%BC%E3%82%92%E8%A6%8B%E3%81%A4%E3%81%91%E3%81%A6%E6%8A%BD%E5%87%BA%E3%81%99%E3%82%8B">ステップ3:レビューを見つけて抽出する</a></h1> <p>次に、このWebページでレビューのHTMLを見つけて抽出し、保存します。Webページの各要素には、唯一のHTML「ID」があります。IDを確認するには、Webページでそれらを検査する必要があります。</p> <p><img src="https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/262932/d8e28b2b-84c3-c956-a4d8-dd482175c6b1.png" alt="要素の検証.png" /></p> <p>「Inspect element(要素の検証)](「Inspect(検証))をクリックすると、レビューのHTMLが表示されます。</p> <p><img src="https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/262932/0d48caf6-e20f-f695-5b4f-52fa0462a93c.png" alt="HTMLが表示されます.png" /></p> <p>この場合、レビューは「p」というタグの下にあります。そのため、まずfind_all()という関数を使って、これらのレビューの親ノードを見つけます。そして、ループ内の親ノードの下にタグ「p」を持つすべての要素を見つけます。すべての「p」要素を見つけたら、それらを「review」という空のリストに保存します。</p> <p><img src="https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/262932/7d03c63a-5992-20ac-8922-44aea1eb3991.png" alt="レビュー.png" /></p> <p>これで、そのページからすべてのレビューを取得できます。いくつのレビューを抽出したか見てみましょう。</p> <p><img src="https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/262932/944c1728-c0cc-3dec-345d-ae3c7100ae9f.png" alt="レビュー数.png" /></p> <h1 id="ステップ4:レビューを処理する"><a href="#%E3%82%B9%E3%83%86%E3%83%83%E3%83%974%EF%BC%9A%E3%83%AC%E3%83%93%E3%83%A5%E3%83%BC%E3%82%92%E5%87%A6%E7%90%86%E3%81%99%E3%82%8B">ステップ4:レビューを処理する</a></h1> <p>各レビューの最初に<code><p lang = 'en'></code>、レビューの途中に<code><br/></code>、およびレビューの終わりに<code></ p></code>などの役に立たないテキストがまだあることに注意する必要があります。</p> <p><code><br/></code>は改行を表します。レビューに改行を入れる必要はありませんので、削除する必要があります。また、<code><p lang = 'en'></code>と<code></ p></code>はHTMLの始まりと終わりであり、これらも削除する必要があります。</p> <p><img src="https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/262932/c31cad4a-2a12-047c-bf22-92ae926f411f.png" alt="レビューを処理する.png" /></p> <p>最後に、20行未満のコードですべてレビューをきれいに取得しました。</p> <h1 id="まとめ"><a href="#%E3%81%BE%E3%81%A8%E3%82%81">まとめ</a></h1> <p>以上はYelpから20件のレビューを収集するデモです。しかし、実際には、他の多くの状況に直面する必要があるかもしれません。例えば、他のページに移動してこのショップの残りのレビューを抽出するには、ページネーションなどの手順が必要になります。または、レビュアー名、レビュアーの場所、レビュー時間などのその他の情報も収集する必要があります。</p> <p>上記の操作を実装してより多くのデータを取得するには、Seleniumや正規表現などの関数とライブラリをさらに学習しなければなりません。Webスクレイピングの課題を掘り下げるのにより多くの時間を費やすことは興味深いでしょう。</p> <p>ただし、Webスクレイピングを行う簡単な方法を探している場合は、Octoparseのようなスクレイピングツールが一番いいソリューションになるかもしれません。Octoparseは、コードを各必要なく、Webサイトから情報を簡単に取得できる強力なWebスクレイピングツールです。Webスクレイピングをマスターして、Webデータの取得を自動化にしましょう!</p> Octoparse Japan tag:crieit.net,2005:PublicArticle/15678 2020-01-13T18:52:04+09:00 2020-01-13T18:52:04+09:00 https://crieit.net/posts/what-is-octoparse Octoparseとは?Webデータを自動抽出できるスクレイピングツール <h2 id="Octoparseとは?"><a href="#Octoparse%E3%81%A8%E3%81%AF%EF%BC%9F">Octoparseとは?</a></h2> <p><a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/">Octoparse</a>は、視覚的に分かりやすくデータを抽出できる<a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/the-10-best-web-scraping-tools/">Webスクレイピングツール</a>です。コードを書くことなく、スクレイピングの初心者でも、Octoparseを使ってWebサイトから大量の情報を手軽に抽出できます。</p> <p>WindowsアプリケーションであるOctoparseは、Ajaxを使うWebページを含む静的および動的Webサイトに対応し、フォームを記入したり、テキストボックスに検索語を入力したりするなどで、人間の操作をシミュレートしてWebページとやり取りします。抽出プロジェクトは、自分のマシン(ローカル抽出)またはクラウド(クラウド抽出)で実行できます。CSV、EXCEL、HTML、JSON、データベース(MySQL、SQL Server、Oracle)などさまざまな出力形式があります。</p> <p>Octoparse無料版と有料版は同じ機能を共有しています。無料版だと、一部機能に制限がありますが、ヘビーユーズでもしない限りは、十分すぎるくらいの機能があります。有料版だと、タスクの登録数や自動実行数が多くなり、クラウド上で動作させることもできます。</p> <h3 id="ワークフロー"><a href="#%E3%83%AF%E3%83%BC%E3%82%AF%E3%83%95%E3%83%AD%E3%83%BC">ワークフロー</a></h3> <p>Octoparseは、視覚的に使いやすい操作ペインを提供します。Octoparseは、Webページを開いたり、アカウントにログインしたり、テキストを入力したり、Web要素をクリックするなど人間のWebブラウジング動作をシミュレートします。内蔵組ブラウザでWebサイトの情報をクリックして、必要な構造化データを取得します。</p> <h3 id="クラウドサービス"><a href="#%E3%82%AF%E3%83%A9%E3%82%A6%E3%83%89%E3%82%B5%E3%83%BC%E3%83%93%E3%82%B9">クラウドサービス</a></h3> <p>分散コンピューティングに基づいて大規模なWebデータを同時にスクレイピングすることは、Octoparseの最も強力な機能です。クラウド機能を使うと、多数のクラウドサーバーを使って同時に抽出を実行できます。短期間に10,000のWebページをスクレイピングする必要がある場合は、Octoparseクラウドサービスが最適です。クラウド型プラットフォームでは、620倍の高速抽出が可能です。自動取得したデータはクラウドに保存され、どこでもアクセスできます。ハードウェア保守も不要だし、ネットワーク中断に心配する必要もありません。</p> <h3 id="豊富なツール"><a href="#%E8%B1%8A%E5%AF%8C%E3%81%AA%E3%83%84%E3%83%BC%E3%83%AB">豊富なツール</a></h3> <p>Octoparseには、ウィザード形式で抽出データを指定する「Wizard mode(ウィザードモード)」と自由に抽出データを指定できる「Advanced mode(アドバンスドモード)」2つのモードがあります。</p> <p>ユーザー体験を向上させるため、Advanced modeでは、豊富なツールセットを提供します。</p> <ul> <li>正規表現式生成ツール</li> <li>Xpath生成ツール</li> <li>実行タイムアウトの設定</li> <li>スクロールダウン</li> <li>ページアンカーフック</li> </ul> <h3 id="API"><a href="#API">API</a></h3> <p>Octoparse APIに接続すると、自分のシステムにデータを自動的に配信でき、自分のアカウントにあるデータにアクセスできます。タスクのルールを設定するだけで、Octoparseクラウドサーバーが残りの作業を行います。データはXMLの形式で配信されます。</p> <h3 id="Webスクレイピングテンプレート"><a href="#Web%E3%82%B9%E3%82%AF%E3%83%AC%E3%82%A4%E3%83%94%E3%83%B3%E3%82%B0%E3%83%86%E3%83%B3%E3%83%97%E3%83%AC%E3%83%BC%E3%83%88">Webスクレイピングテンプレート</a></h3> <p><a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/a-revolutionary-web-scraping-software-to-boost-your-business-easier/">Webスクレイピングテンプレート</a>は非常にシンプルで強力な機能です。テンプレートを使うと、プログラミング知識の少ない/ない人でも簡単にWebスクレイピングを達成できます。具体的には、Octoparseのソフトには数十種類のあらかじめ作成されたテンプレートがあり、パラメータ(ターゲットWebサイトのURL、検索キーワードなど)を入力するだけで、データが抽出されてきます。そのため、スクレイピングタスクやコードを書く必要はありません。例えば、eBayで「イヤフォン」に関する製品情報を収集したい場合は、パラメータに「イヤフォン」と入力してタスクを実行して、数秒でアイテム番号、価格、送料などを含む製品情報を得ることができます。</p> <h2 id="まとめ"><a href="#%E3%81%BE%E3%81%A8%E3%82%81">まとめ</a></h2> <p>Webスクレイピングツールはニュースポータル、人工知能、フォーラム、Eコマースサイト、ソーシャルメディア、不動産、財務報告などさまざまな分野で広く使われています。Octoparseを利用することで、価格比較、研究、事業、営業、マーケティングを効率的に進めることができるようになります。</p> Octoparse Japan