2019-02-13に投稿

Python3で日本経済新聞のタイトルを取得する

やってみたかったスクレイピング

Webサービスを作っていると、コンテンツのベースデータを集めるためにスクレイピングが出来たらいいな。はいつも思っている。
そこで一念奮起してPythonを勉強している。

今回やること

日経新聞のホームページからタイトルを取得

書いたスクリプト

import urllib.request, urllib.error
from bs4 import BeautifulSoup

# アクセスするURL
url = "http://www.nikkei.com/"

# URLにアクセスする
html = urllib.request.urlopen(url)

# htmlをBeautifulSoupで処理する
soup = BeautifulSoup(html, "html.parser")

# タイトル要素を取得する
title_tag = soup.title

# 要素の文字列を取得する
title = title_tag.string

# タイトル要素を出力
print(title_tag)

# タイトルを文字列を出力
print(title)

urllibとは?

urllib は URL を扱う幾つかのモジュールを集めたパッケージです。

  • urllib.request は URL を開いて読むためのモジュールです
  • urllib.error は urllib.request が発生させる例外を持っています
  • urllib.parse は URL をパースするためのモジュールです
  • urllib.robotparser は robots.txt ファイルをパースするためのモジュールです

BeautifulSoupとは?

Pythonのライブラリの一つで、スクレイピングに特化したモジュールです。
htmlファイルをタグ情報から解析し、抽出データを格納したインスタンスを返します。

ハマったところ

参考にしたコードがPython2系だったので書き方が結構違った。

Originally published at www.corylog.com
ツイッターでシェア
みんなに共有、忘れないようにメモ

view_list 脳筋Python
第1回 PythonでHelloWorld!
第2回 Python3で日本経済新聞のタイトルを取得する
第3回 Pythonで文字列を結合する
第4回 Python3で足し算をする
第5回 Pythonで数字を文字列として扱う

aocory

Crieitは誰でも投稿できるサービスです。 是非記事の投稿をお願いします。どんな軽い内容でも投稿できます。

また、「こんな記事が読みたいけど見つからない!」という方は是非記事投稿リクエストボードへ!

有料記事を販売できるようになりました!

こじんまりと作業ログやメモ、進捗を書き残しておきたい方はボード機能をご利用ください。
ボードとは?

コメント