Webサービスを作っていると、コンテンツのベースデータを集めるためにスクレイピングが出来たらいいな。はいつも思っている。
そこで一念奮起してPythonを勉強している。
日経新聞のホームページからタイトルを取得
import urllib.request, urllib.error
from bs4 import BeautifulSoup
# アクセスするURL
url = "http://www.nikkei.com/"
# URLにアクセスする
html = urllib.request.urlopen(url)
# htmlをBeautifulSoupで処理する
soup = BeautifulSoup(html, "html.parser")
# タイトル要素を取得する
title_tag = soup.title
# 要素の文字列を取得する
title = title_tag.string
# タイトル要素を出力
print(title_tag)
# タイトルを文字列を出力
print(title)
urllib は URL を扱う幾つかのモジュールを集めたパッケージです。
Pythonのライブラリの一つで、スクレイピングに特化したモジュールです。
htmlファイルをタグ情報から解析し、抽出データを格納したインスタンスを返します。
参考にしたコードがPython2系だったので書き方が結構違った。
第1回 | PythonでHelloWorld! |
第2回 | Python3で日本経済新聞のタイトルを取得する |
第3回 | Pythonで文字列を結合する |
第4回 | Python3で足し算をする |
第5回 | Pythonで数字を文字列として扱う |
Crieitは誰でも投稿できるサービスです。 是非記事の投稿をお願いします。どんな軽い内容でも投稿できます。
また、「こんな記事が読みたいけど見つからない!」という方は是非記事投稿リクエストボードへ!
こじんまりと作業ログやメモ、進捗を書き残しておきたい方はボード機能をご利用ください。
ボードとは?
コメント