tag:crieit.net,2005:https://crieit.net/tags/%E3%83%80%E3%82%A6%E3%83%B3%E3%83%AD%E3%83%BC%E3%83%89/feed 「ダウンロード」の記事 - Crieit Crieitでタグ「ダウンロード」に投稿された最近の記事 2021-03-10T19:23:06+09:00 https://crieit.net/tags/%E3%83%80%E3%82%A6%E3%83%B3%E3%83%AD%E3%83%BC%E3%83%89/feed tag:crieit.net,2005:PublicArticle/16729 2021-03-10T19:23:06+09:00 2021-03-10T19:23:06+09:00 https://crieit.net/posts/Web-60489e0ae2b7e Webサイトから画像を一括ダウンロードする方法 <p><a href="https://crieit.now.sh/upload_images/f5350c378d547ec047dee00a5ecd825460489d3d25baa.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/f5350c378d547ec047dee00a5ecd825460489d3d25baa.png?mw=700" alt="image" /></a><br /> 元記事:<a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/how-to-scrape-and-bulk-download-images-from-any-website/">https://www.octoparse.jp/blog/how-to-scrape-and-bulk-download-images-from-any-website/</a></p> <h1 id="1. Webサイトから画像を取得する方法"><a href="#1.+Web%E3%82%B5%E3%82%A4%E3%83%88%E3%81%8B%E3%82%89%E7%94%BB%E5%83%8F%E3%82%92%E5%8F%96%E5%BE%97%E3%81%99%E3%82%8B%E6%96%B9%E6%B3%95">1. Webサイトから画像を取得する方法</a></h1> <p>Webサイトから全ての画像を一括で保存したいとき、1枚ずつ保存するのは非常に面倒です。これは非常に退屈なプロセスであり、仕事の効率を低下させます。</p> <p>実際、Webスクレイピングツールは、この作業を自動化するの最適な選択肢です。Webページを無限にクリックする代わりに、5分以内にタスクを設定するだけで、<a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/what-is-a-web-crawler-and-how-does-it-work/">クローラー</a>がすべての画像URLを取得してくれます。画像を一括でダウンロードツールにコピーすると、わずか10分で完成させます。</p> <h1 id="2. Webスクレイピングツールをダウンロード"><a href="#2.+Web%E3%82%B9%E3%82%AF%E3%83%AC%E3%82%A4%E3%83%94%E3%83%B3%E3%82%B0%E3%83%84%E3%83%BC%E3%83%AB%E3%82%92%E3%83%80%E3%82%A6%E3%83%B3%E3%83%AD%E3%83%BC%E3%83%89">2. Webスクレイピングツールをダウンロード</a></h1> <p>まずは「<a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/the-10-best-web-scraping-tools/">Webスクレイピングツールにオススメの10選</a>」という記事から自分に合ったWebスクレイピングツールを探しましょう!今回は、上記の記事から紹介された<a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/">Octoparse</a>を例として紹介します。</p> <p>なお、これは簡単なガイドであり、プログラミングの経験は必要ありません。心配しないでください。</p> <p><a href="https://crieit.now.sh/upload_images/921cb10fcd16eb732d754672c6b3acf860489d541a0c2.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/921cb10fcd16eb732d754672c6b3acf860489d541a0c2.png?mw=700" alt="image" /></a><br /> <strong><em>Octoparseを<a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/Download">ダウンロードする</a></em></strong></p> <p><strong><em>注:Octoparseは無料プランを提供しています。このガイドに記載されている機能にお金を払う必要はありません。</em></strong></p> <h1 id="3. 2つのステップだけで、すべての画像URLを取得"><a href="#3.+2%E3%81%A4%E3%81%AE%E3%82%B9%E3%83%86%E3%83%83%E3%83%97%E3%81%A0%E3%81%91%E3%81%A7%E3%80%81%E3%81%99%E3%81%B9%E3%81%A6%E3%81%AE%E7%94%BB%E5%83%8FURL%E3%82%92%E5%8F%96%E5%BE%97">3. 2つのステップだけで、すべての画像URLを取得</a></h1> <h2 id="ステップ1: タスクを作成する"><a href="#%E3%82%B9%E3%83%86%E3%83%83%E3%83%971%3A+%E3%82%BF%E3%82%B9%E3%82%AF%E3%82%92%E4%BD%9C%E6%88%90%E3%81%99%E3%82%8B">ステップ1: タスクを作成する</a></h2> <p>1)Octoparseを起動します。スクレイピングしたいWebページのURLを入力します。「<strong>抽出開始</strong>」 ボタンをクリックして進みます。</p> <p><a href="https://crieit.now.sh/upload_images/d50a974d098f2150cf9eb7daa2b36d4660489d5fc66db.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/d50a974d098f2150cf9eb7daa2b36d4660489d5fc66db.png?mw=700" alt="image" /></a></p> <p>もうすぐホワイトデーですので、今回は楽天市場上のチョコレートの画像を例にしてみましょう。</p> <p>サンプルURL: <a target="_blank" rel="nofollow noopener" href="https://search.rakuten.co.jp/search/mall/チョコレート/">https://search.rakuten.co.jp/search/mall/チョコレート/</a></p> <p>(このリンクが無効になった場合は、楽天市場の別の検索結果のリンクを使ってください)</p> <p>2)Octoparseでページが読み込みされたら、自動的にページ上の内容を識別します。もし自動識別機能をオフする場合は、右上の操作ヒントパネルで 「<strong>Webページを自動識別する</strong>」、ページ上の内容を識別します。<a target="_blank" rel="nofollow noopener" href="https://helpcenter.octoparse.jp/hc/ja/articles/360013585100-%E3%83%AC%E3%83%83%E3%82%B9%E3%83%B31-%E8%87%AA%E5%8B%95%E8%AD%98%E5%88%A5%E6%A9%9F%E8%83%BD%E3%81%A7%E3%83%87%E3%83%BC%E3%82%BF%E3%82%92%E6%8A%BD%E5%87%BA%E3%81%99%E3%82%8B">自動識別</a>とは、自動的にページ上の必要なデータを検出して識別するという役立つ機能です。ポイント&クリックをする必要はなく、Octoparseは自動的に処理します。</p> <p><a href="https://crieit.now.sh/upload_images/70b8932a9984095d3fbd09b347cd6e5b60489d6bca8c3.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/70b8932a9984095d3fbd09b347cd6e5b60489d6bca8c3.png?mw=700" alt="image" /></a></p> <p>3)識別が完了すると、データプレビューで識別したデータを表示され、どのようなデータが取得されているかを確認することができます。「<strong>識別結果を切り替える</strong>」をクリックすると、ページの異なる場所の識別結果を指定することができます。「<strong>ワークフローを生成</strong>」をクリックして確認し、タスクを作成します。</p> <p><a href="https://crieit.now.sh/upload_images/50c7d27de50e4545324522e06a92b69860489d78a0905.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/50c7d27de50e4545324522e06a92b69860489d78a0905.png?mw=700" alt="image" /></a></p> <p>これで簡単に楽天市場のクローラーが作成しました!</p> <h2 id="ステップ2: タスクを実行する"><a href="#%E3%82%B9%E3%83%86%E3%83%83%E3%83%972%3A+%E3%82%BF%E3%82%B9%E3%82%AF%E3%82%92%E5%AE%9F%E8%A1%8C%E3%81%99%E3%82%8B">ステップ2: タスクを実行する</a></h2> <p>上の「<strong>実行</strong>」ボタンをクリックして、すぐタスクを実行できます。たった数分で数千件のデータを取得することができます。これがOctoparseのスピードです。一度Octoparseのコツをつかめば、以前Webデータを取得するための手作業で時間を無駄にしていたことを後悔するに違いありません。<br /> <a href="https://crieit.now.sh/upload_images/ee14452def08ba4d174ff1e658de5f9460489d85ae59a.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/ee14452def08ba4d174ff1e658de5f9460489d85ae59a.png?mw=700" alt="image" /></a></p> <p>これは、たった5分で抽出したデータです。実際、それはすべての画像のURLだけでなく、製品の詳細ページのデータもスクレイピングできます。これは、<a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/using-web-scraping-to-improve-business-analytics-and-intelligence">競合調査</a>や<a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/competitor-monitoring-for-price-strategy-and-product-planning/">EC(Eコマース)</a>分析をしている方には、非常に役立つツールです。</p> <h1 id="4. 数秒で画像を一括ダウンロード!"><a href="#4.+%E6%95%B0%E7%A7%92%E3%81%A7%E7%94%BB%E5%83%8F%E3%82%92%E4%B8%80%E6%8B%AC%E3%83%80%E3%82%A6%E3%83%B3%E3%83%AD%E3%83%BC%E3%83%89%EF%BC%81">4. 数秒で画像を一括ダウンロード!</a></h1> <p>すべての画像URLをExcelファイルに保存した状態で、<a target="_blank" rel="nofollow noopener" href="https://www.youtube.com/watch?v=NJ8O4HUUfag">この動画</a>から紹介された一括ダウンロードツールを使って、全ての画像をダウンロードします。今回はChromeの「<a target="_blank" rel="nofollow noopener" href="https://chrome.google.com/webstore/detail/tab-save/lkngoeaeclaebmpkgapchgjdbaekacki">Tab Save</a>」という拡張機能を例として試していきましょう。</p> <p><a href="https://crieit.now.sh/upload_images/c3bd348d576aaca9091be50739763d3460489d9a6822f.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/c3bd348d576aaca9091be50739763d3460489d9a6822f.png?mw=700" alt="image" /></a></p> <p>画像のURLをコピーしてタブ保存に貼り付け、ダウンロードをクリックすると、すべての画像が数秒でコンピュータにダウンロードされます。</p> <p><a href="https://crieit.now.sh/upload_images/5ec31461ea5d0d590e32eae35b0c4ea560489da36267b.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/5ec31461ea5d0d590e32eae35b0c4ea560489da36267b.png?mw=700" alt="image" /></a></p> <p>全体のプロセスはわずか10分かかります。楽天市場から画像の数千(サイトに応じて具体的なデータ件数も変わります)をダウンロードできます。ぜひ試してみてください!</p> <h1 id="もしタスクは不具合な状況がある場合…"><a href="#%E3%82%82%E3%81%97%E3%82%BF%E3%82%B9%E3%82%AF%E3%81%AF%E4%B8%8D%E5%85%B7%E5%90%88%E3%81%AA%E7%8A%B6%E6%B3%81%E3%81%8C%E3%81%82%E3%82%8B%E5%A0%B4%E5%90%88%E2%80%A6">もしタスクは不具合な状況がある場合…</a></h1> <p>今回の例で自動識別による生成したタスクは問題なく実行できますが、もしタスクは不具合な状況がある場合は、どのように修正すればいいでしょうか?</p> <h3 id="1. ページネーションが無効の場合"><a href="#1.+%E3%83%9A%E3%83%BC%E3%82%B8%E3%83%8D%E3%83%BC%E3%82%B7%E3%83%A7%E3%83%B3%E3%81%8C%E7%84%A1%E5%8A%B9%E3%81%AE%E5%A0%B4%E5%90%88">1. ページネーションが無効の場合</a></h3> <p>このステップでは、ページネーションを確認し、必要に応じて<a target="_blank" rel="nofollow noopener" href="https://helpcenter.octoparse.jp/hc/ja/articles/360015765513-XPath%E5%9F%BA%E7%A4%8E%E7%B7%A8-1-%E3%83%BC-XPath%E3%81%AE%E5%9F%BA%E6%9C%AC%E6%A6%82%E5%BF%B5">Xpath</a>を修正していきます。ページネーションについて<a target="_blank" rel="nofollow noopener" href="https://helpcenter.octoparse.jp/hc/ja/articles/360015281940-%E3%83%9A%E3%83%BC%E3%82%B8%E3%83%8D%E3%83%BC%E3%82%B7%E3%83%A7%E3%83%B3%E3%81%AE%E5%87%A6%E7%90%86-%E6%AC%A1%E3%81%B8-%E3%83%9C%E3%82%BF%E3%83%B3%E3%81%8C%E3%81%82%E3%82%8B%E5%A0%B4%E5%90%88-">こちら</a>でご参照ください。</p> <p>具体的には、ステップ「ページネーション」をダブルクリックすると、設定画面が表示されます。その設定画面には、自動識別で作成されたXpathがあります。</p> <p><strong>・どのように修正すればいいでしょうか?</strong><br /> 右側の小さな矢印をクリックして、右側の内蔵ブラウザで「<strong>次のページ</strong>」ボタンをクリックします。これはクローラーに「これが私がクリックしたいボタン」を指示しています。簡単でしょうね。</p> <p><a href="https://crieit.now.sh/upload_images/79f5fbfe4152d1b8f300d77443eb22b660489dad857b5.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/79f5fbfe4152d1b8f300d77443eb22b660489dad857b5.png?mw=700" alt="image" /></a></p> <p><strong>・もし上記の方法を修正してもダメな場合はどうすればいいでしょうか?</strong></p> <p>下記の画像の通りに、Xpathを入力してください。<br /> <code>(//a[@class="item -next nextPage"][contains(string(),"次のページ")][not(@disabled)])[1]</code></p> <p><a href="https://crieit.now.sh/upload_images/b41344abcf2335f6b1c9b76b7dfd8e1360489db7bee43.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/b41344abcf2335f6b1c9b76b7dfd8e1360489db7bee43.png?mw=700" alt="image" /></a></p> <h3 id="2. 画像が読み込まないの場合"><a href="#2.+%E7%94%BB%E5%83%8F%E3%81%8C%E8%AA%AD%E3%81%BF%E8%BE%BC%E3%81%BE%E3%81%AA%E3%81%84%E3%81%AE%E5%A0%B4%E5%90%88">2. 画像が読み込まないの場合</a></h3> <p>ページが完全に読み込みされるため、スクロールダウンの設定が必要となります。このステップは、スクロールダウンを設定することです。Octoparseで数回のクリックするだけで設定できます!</p> <p>ワークフローに戻って、「<strong>Webページを開く</strong>」をダブルクリックし、「<strong>Webページを読み込んだ後</strong>」で「スクロールダウン」にチェックを入れ、2秒間隔でスクロール1回、回数50回を設定します。</p> <p><a href="https://crieit.now.sh/upload_images/ddac9cf9e67bc63c79d4388e2779a23e60489dc8c71f7.png" target="_blank" rel="nofollow noopener"><img src="https://crieit.now.sh/upload_images/ddac9cf9e67bc63c79d4388e2779a23e60489dc8c71f7.png?mw=700" alt="image" /></a></p> <p>これでタスクの修正は完了です!</p> <h1 id="5. まとめ"><a href="#5.+%E3%81%BE%E3%81%A8%E3%82%81">5. まとめ</a></h1> <ol> <li>Octoparseは、無料プランも提供しているWebスクレイピングツールです。ノーコード技術を使うため、非エンジニアでもスクレイピングすることができます。Webスクレイピングプロジェクトを1から始める最適なツールです。</li> <li>Octoparseの自動識別機能を利用して、Webサイトから簡単にデータを取得することができます。これにより、他のツールでややこしいステップ設定から解放されます。</li> <li>自動識別機能を利用して、Xpathを書く必要はありません!ポイント&クリックだけでテキストやボタンなどの内容を指定できます。これは最もやりやすい方法です。</li> </ol> <p><strong>参考記事:</strong><br /> <a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/bulk-download-images-from-links-top-5-bulk-image-downloaders/">画像を一括ダウンロードするのに超便利なツール5選</a><br /> <a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/top-5-web-scraping-tools-comparison">注目のWebスクレイピングツール5選を徹底比較!</a><br /> <a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/3-challenges-to-extract-data-from-ecommerce-websites">ECサイトからデータを抽出する3つの課題</a><br /> <a target="_blank" rel="nofollow noopener" href="https://www.octoparse.jp/blog/data-driven-ecommerce-pricing-strategy-using-web-scraping">Webスクレイピングによる価格戦略・価格の決め方</a></p> Octoparse Japan