Python3で日本経済新聞のタイトルを取得する

Python 脳筋Python

やってみたかったスクレイピング

Webサービスを作っていると、コンテンツのベースデータを集めるためにスクレイピングが出来たらいいな。はいつも思っている。
そこで一念奮起してPythonを勉強している。

今回やること

日経新聞のホームページからタイトルを取得

書いたスクリプト

import urllib.request, urllib.error
from bs4 import BeautifulSoup

# アクセスするURL
url = "http://www.nikkei.com/"

# URLにアクセスする
html = urllib.request.urlopen(url)

# htmlをBeautifulSoupで処理する
soup = BeautifulSoup(html, "html.parser")

# タイトル要素を取得する
title_tag = soup.title

# 要素の文字列を取得する
title = title_tag.string

# タイトル要素を出力
print(title_tag)

# タイトルを文字列を出力
print(title)

urllibとは？

urllib は URL を扱う幾つかのモジュールを集めたパッケージです。

urllib.request は URL を開いて読むためのモジュールです
urllib.error は urllib.request が発生させる例外を持っています
urllib.parse は URL をパースするためのモジュールです
urllib.robotparser は robots.txt ファイルをパースするためのモジュールです

BeautifulSoupとは？

Pythonのライブラリの一つで、スクレイピングに特化したモジュールです。
htmlファイルをタグ情報から解析し、抽出データを格納したインスタンスを返します。

ハマったところ

参考にしたコードがPython2系だったので書き方が結構違った。

Originally published at www.corylog.com

ツイッターでシェア

みんなに共有、忘れないようにメモ

脳筋Python

第1回	PythonでHelloWorld！
第2回	Python3で日本経済新聞のタイトルを取得する
第3回	Pythonで文字列を結合する
第4回	Python3で足し算をする
第5回	Pythonで数字を文字列として扱う