[連載] BS4でスクレイピングの投稿 - Crieit

BeautifulSoup入門データをpandas　データフレームに格納する

2019-03-02T12:42:31+09:00

title: BeautifulSoup入門データをpandas　データフレームに格納する
date: '2019-03-02'
update:
type: post
icon: python-logo.png
categoryName: Python

categorySlug: python

データをいろいろ扱いたい

google Colaboratoryは、環境構築不要で色々できるのが魅力です。
今回は前回回収したCrieitのデータをCSVにしたいと思います。

元のコード

from bs4 import BeautifulSoup
import requests

base_url = "https://crieit.net/posts?page="

num = 1
while num <= 2:
 url=base_url+ str(num)
 r = requests.get(url)
 soup = BeautifulSoup(r.text)
 titles =soup.select("h5 a")
 if len(titles) == 0:
  print("これ以上記事はありません")  
  break
 num += 1
 for title in titles:
  print(title.text)

pandasをインポート

まずはPandrasをインポートします。

import pandas as pd

pandasデータフレームを作る

データを格納するためのハコを作ります。pandasではこのことをデータフレーム＝dfといいます。
titleを今回はCSVにします。
columnsは、表の横列を示します。あとで出てきますが縦列はrowで表現します。

columns = ["title"]
df = pd.DataFrame(columns=columns)

for文を書き換え

for文でtitleをデータフレームに格納します。
そのときの処理は、PandasのSeriesを用います。
そして、Pandasのデータフレームの末尾にappendを用いて追加します。

for title in titles:
 se= pd.Series(title.text, columns)
 df = df.append(se, ignore_index=True)

結果を表示させる

結果を表示させます。

df

修正したコード

from bs4 import BeautifulSoup
import requests
import pandas as pd

columns = ['title']
df = pd.DataFrame(columns=columns)

base_url = "https://crieit.net/posts?page="

num = 1
while num <= 1:
 url=base_url+ str(num)
 r = requests.get(url)
 soup = BeautifulSoup(r.text)
 titles =soup.select("h5 a")
 if len(titles) == 0:
  print("これ以上記事はありません")  
  break
 num += 1
 for title in titles:
  se= pd.Series(title.text, columns)
  df = df.append(se, ignore_index=True)
df

動くサンプル

Python3

BeautifulSoup入門　スクレイピング実践編　複数ページに対応させる【python】

2019-02-28T17:00:36+09:00

スクレイピングをしたい

Webサイトから情報をまとめてCSVでごにょごにょしたいなどにスクレイピングは便利です。
今回は、Pythonのスクレイピングによく使われるBeautifulSoupを使って勉強していきます。
BeautifulSoupには便利な機能がたくさんあります。
今回もcrieitさんからデータを抜いていきます。（制作者のdalaさんには了解済み）

今回の目標

今回の目標はcrieitの全タイトルと記事URLの取得とします。

ライブラリの導入

何はともあれライブラリを導入します。

from bs4 import BeautifulSoup
import requests

記事一覧ページの確認

crieitの記事一覧は、https://crieit.net/posts?page=1　という記載になっています。
つまり、＝1の分割すれば良さそうです。

base_url = "https://crieit.net/posts?page="
num = 1

whileでループ処理

次にwhileでループ処理をします。
+ ループが終わればnumに1を足す。
+ 所得したtextの長さが0ならループを抜ける

これで動きそうです。

while num <= 100:
 url=base_url+ str(num)
 r = requests.get(url)
 soup = BeautifulSoup(r.text)
 titles =soup.select("h5 a")
 if len(titles) == 0:
  print("これ以上記事はありません")  
  break
 num += 1

str(num)でnumを文字列に変換しています。
len(titles)は、titlesの長さを確認します。

完成したコード

from bs4 import BeautifulSoup
import requests

base_url = "https://crieit.net/posts?page="
num = 1
while num <= 100:
 url=base_url+ str(num)
 r = requests.get(url)
 soup = BeautifulSoup(r.text)
 titles =soup.select("h5 a")
 if len(titles) == 0:
  print("これ以上記事はありません")  
  break
 num += 1
 for title in titles:
  print(title.text)

動くサンプル

Python3

BeautifulSoup入門　スクレイピング実践編　タイトルとリンク取得まで【python】

2019-02-28T16:18:29+09:00

スクレイピングをしたい

今回の目標

今回の目標はタイトルと記事URLの取得とします。

ライブラリの導入

BeautifulSoup単体ではURLをからデータを持ってこれません。
requestsを併用します。

from bs4 import BeautifulSoup
import requests

Requestsを使って、webからデータを取得

requestsを使用してデータを持ってきます。

url = "https://crieit.net/"
r = requests.get(url)

BeautifulSoupで要素を整形する

つぎにBeautifulSoupで要素を整形する

soup = BeautifulSoup(r.text)

crieitの記事タイトルの中身を確認

抜きたいデータはタイトルとURLですのでその箇所の要素を確認します。


　Tilemapからミニマップを作成してみた①

取り方としては
+ h5タグで絞り込む
+ classで絞り込む

とかでなんとかなりそうです。

soup.find_all

試しにsoup.find_allで値を取得してみましょう。

titles =soup.find_all("h5")
print(titles)

[クロス投稿可能
, 自由に投稿, ]

のように配列で渡されてきました。これでは視認性が悪いです。forで表示してみましょう。

for title in titles:
  print(title)

すると

Nuxt.js+ExpressのプロジェクトをTypeScript化する
Firestoreの参照型によるリレーションを試す
Tilemapからミニマップを作成してみた①
BeautifulSoup入門　soup.の挙動を確認する

のように出力されます。aタグで拾ってきた方が良さそうです。

soup.selectを使う

そこでsoup.selectを使うとCSSセレクタで抽出ができます。

titles =soup.select("h5 a")
print(titles)
for title in titles:
  print(title.text)
  link = title.get("href")
  print(link)

これで無事

Tilemapからミニマップを作成してみた①
[https://crieit.net/posts/Tilemap-5c73afa5127c1](https://crieit.net/posts/Tilemap-5c73afa5127c1)
BeautifulSoup入門　soup.の挙動を確認する
[https://crieit.net/posts/BeautifulSoup-soup](https://crieit.net/posts/BeautifulSoup-soup)
BeautifulSoup入門　HTMLを取得して表示する【Python】
[https://crieit.net/posts/BeautifulSoup-HTML-Python](https://crieit.net/posts/BeautifulSoup-HTML-Python)

のようにキチンと取得できました。

動くサンプル

Python3

BeautifulSoup入門　スクレイピング実践編　HTML取得まで【python】

2019-02-28T16:12:13+09:00

スクレイピングをしたい

Webサイトから情報をまとめてCSVでごにょごにょしたいなどにスクレイピングは便利です。
今回は、Pythonのスクレイピングによく使われるBeautifulSoupを使って勉強していきます。
BeautifulSoupには便利な機能がたくさんあります。
今回はcrieitさんからデータを抜いていきます。（制作者のdalaさんには了解済み）

ライブラリの導入

BeautifulSoup単体ではURLをからデータを持ってこれません。
requestsを併用します。

from bs4 import BeautifulSoup
import requests

Requestsを使って、webからデータを取得

requestsを使用してデータを持ってきます。

url = "https://crieit.net/"
r = requests.get(url)

BeautifulSoupで要素を整形する

つぎにBeautifulSoupで要素を整形する

soup = BeautifulSoup(r.text)

出力してみる

出力してみましょう。
今回は生のHTMLを吐き出します。

print(soup.prettify())

今回のコード

from bs4 import BeautifulSoup
import requests

url = "https://crieit.net/"
r = requests.get(url)
soup = BeautifulSoup(r.text)
print(soup.prettify())

今回のまとめ

とりあえず、HTMLとるとこまでいけました。
次回は、タイトル全部抜いていきたいと思います。

動くサンプル

Python3

BeautifulSoup入門　soup.の挙動を確認する

2019-02-28T08:46:07+09:00

スクレイピングをしたい

Webサイトから情報をまとめてCSVでごにょごにょしたいなどにスクレイピングは便利です。
今回は、Pythonのスクレイピングによく使われるBeautifulSoupを使って勉強していきます。
BeautifulSoupには便利な機能がたくさんあります。今回は、それをまとめておきます。

tagの名前を表示

BeautifulSoupでtagの名前を表示するには

print(soup.title.name)

と記載します。

titleタグで囲まれた文字列を表示

BeautifulSoupでtagの名前を表示するには

print(soup.title.string)

と記載します。

titleタグの親要素を表示

BeautifulSoupでtagの名前を表示するには

print(soup.title.parent.name)

と記載します。

タグで囲まれた部分を表示

BeautifulSoupでtagの名前を表示するには

print(soup.p)

と記載します。

タグのクラス名を取得

BeautifulSoupでtagの名前を表示するには

print(soup.p['class'])

と記載します。

タグの最初の一つを取得

BeautifulSoupでtagの名前を表示するには

print(soup.a)

と記載します。

タグ全てを取得

BeautifulSoupでtagの名前を表示するには

print(soup.find_all('a'))

と記載します。

idを検索

BeautifulSoupでtagの名前を表示するには

print(soup.find(id="link3"))

と記載します。

完成したコード

html_doc = """
The Dormouse's story

The Dormouse's story

Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.

...
"""

from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc)

#tagの名前を表示
print(soup.title.name)

#titleタグで囲まれた文字列を表示
print(soup.title.string)

#titleタグの親要素を表示
print(soup.title.parent.name)

#タグで囲まれた部分を表示
print(soup.p)
# <p class="title"><b>The Dormouse's story</b></p>

#タグのクラス名を取得
print(soup.p['class'])

#タグの最初の一つを取得
print(soup.a)

#タグ全てを取得
print(soup.find_all('a'))

#idを検索
print(soup.find(id="link3"))

動くサンプル

Python3

[連載] BS4でスクレイピングの投稿 - Crieit

BeautifulSoup入門 データをpandas データフレームに格納する

BeautifulSoup入門 スクレイピング実践編 複数ページに対応させる【python】

BeautifulSoup入門 スクレイピング実践編 タイトルとリンク取得まで【python】

クロス投稿可能

自由に投稿

Nuxt.js+ExpressのプロジェクトをTypeScript化する

Firestoreの参照型によるリレーションを試す

BeautifulSoup入門 スクレイピング実践編 HTML取得まで【python】

BeautifulSoup入門 soup.の挙動を確認する

BeautifulSoup入門データをpandas　データフレームに格納する

BeautifulSoup入門　スクレイピング実践編　複数ページに対応させる【python】

BeautifulSoup入門　スクレイピング実践編　タイトルとリンク取得まで【python】

BeautifulSoup入門　スクレイピング実践編　HTML取得まで【python】

BeautifulSoup入門　soup.の挙動を確認する