pandasには、データを扱うための色々な便利な関数があります。
今回は.columnsを使ってpandasのデータフレームのインデックスについて確認したいと思います。
元となるデータはCrieitさんのタイトル一覧です。
from bs4 import BeautifulSoup
import requests
import pandas as pd
columns = ['title']
df = pd.DataFrame(columns=columns)
base_url = "https://crieit.net/posts?page="
num = 1
while num <= 1:
url=base_url+ str(num)
r = requests.get(url)
soup = BeautifulSoup(r.text)
titles =soup.select("h5 a")
if len(titles) == 0:
print("これ以上記事はありません")
break
num += 1
for title in titles:
se= pd.Series(title.text, columns)
df = df.append(se, ignore_index=True)
df
.columnsを使うことでデータフレームのインデックスデータを簡単に取得できます。
printなどと併せて使用したりすると思われます。
from bs4 import BeautifulSoup
import requests
import pandas as pd
columns = ['title']
df = pd.DataFrame(columns=columns)
base_url = "https://crieit.net/posts?page="
num = 1
while num <= 1:
url=base_url+ str(num)
r = requests.get(url)
soup = BeautifulSoup(r.text)
titles =soup.select("h5 a")
if len(titles) == 0:
print("これ以上記事はありません")
break
num += 1
for title in titles:
se= pd.Series(title.text, columns)
df = df.append(se, ignore_index=True)
print(df.columns)
Index(['title'], dtype='object')
第2回 | pandas入門 .head()で先頭から要素を抜き出す |
第3回 | pandas入門 .tail()で末尾から要素を抜き出す |
第4回 | pandas入門 .shapeで列数と行数を調べる |
第5回 | pandas入門 .indexでインデックスを調べる |
第6回 | pandas入門 .columnsでカラムの確認を行う |
Crieitは誰でも投稿できるサービスです。 是非記事の投稿をお願いします。どんな軽い内容でも投稿できます。
また、「こんな記事が読みたいけど見つからない!」という方は是非記事投稿リクエストボードへ!
こじんまりと作業ログやメモ、進捗を書き残しておきたい方はボード機能をご利用ください。
ボードとは?
コメント