[連載] pandas入門の投稿 - Crieit

pandas入門 .columnsでカラムの確認を行う

2019-03-04T09:51:28+09:00

データをいろいろ扱いたい

pandasには、データを扱うための色々な便利な関数があります。
今回は.columnsを使ってpandasのデータフレームのインデックスについて確認したいと思います。

元となるデータ

元となるデータはCrieitさんのタイトル一覧です。

from bs4 import BeautifulSoup
import requests
import pandas as pd 

columns = ['title']
df = pd.DataFrame(columns=columns) 

base_url = "https://crieit.net/posts?page="

num = 1
while num <= 1:
 url=base_url+ str(num)
 r = requests.get(url)
 soup = BeautifulSoup(r.text)
 titles =soup.select("h5 a")
 if len(titles) == 0:
  print("これ以上記事はありません")  
  break
 num += 1
 for title in titles:
  se= pd.Series(title.text, columns)
  df = df.append(se, ignore_index=True)
df

.columns

.columnsを使うことでデータフレームのインデックスデータを簡単に取得できます。
printなどと併せて使用したりすると思われます。

出来たコード

from bs4 import BeautifulSoup
import requests
import pandas as pd 

columns = ['title']
df = pd.DataFrame(columns=columns) 

base_url = "https://crieit.net/posts?page="

num = 1
while num <= 1:
 url=base_url+ str(num)
 r = requests.get(url)
 soup = BeautifulSoup(r.text)
 titles =soup.select("h5 a")
 if len(titles) == 0:
  print("これ以上記事はありません")  
  break
 num += 1
 for title in titles:
  se= pd.Series(title.text, columns)
  df = df.append(se, ignore_index=True)
print(df.columns)

出力サンプル

Index(['title'], dtype='object')

動くサンプル

Python3

pandas入門 .indexでインデックスを調べる

2019-03-04T09:50:14+09:00

データをいろいろ扱いたい

pandasには、データを扱うための色々な便利な関数があります。
今回は.indexを使ってpandasのデータフレームのインデックスについて確認したいと思います。

元となるデータ

元となるデータはCrieitさんのタイトル一覧です。

from bs4 import BeautifulSoup
import requests
import pandas as pd 

columns = ['title']
df = pd.DataFrame(columns=columns) 

base_url = "https://crieit.net/posts?page="

num = 1
while num <= 1:
 url=base_url+ str(num)
 r = requests.get(url)
 soup = BeautifulSoup(r.text)
 titles =soup.select("h5 a")
 if len(titles) == 0:
  print("これ以上記事はありません")  
  break
 num += 1
 for title in titles:
  se= pd.Series(title.text, columns)
  df = df.append(se, ignore_index=True)
df

.index

.indexを使うことでデータフレームのインデックスデータを簡単に取得できます。
printなどと併せて使用したりすると思われます。

出来たコード

from bs4 import BeautifulSoup
import requests
import pandas as pd 

columns = ['title']
df = pd.DataFrame(columns=columns) 

base_url = "https://crieit.net/posts?page="

num = 1
while num <= 1:
 url=base_url+ str(num)
 r = requests.get(url)
 soup = BeautifulSoup(r.text)
 titles =soup.select("h5 a")
 if len(titles) == 0:
  print("これ以上記事はありません")  
  break
 num += 1
 for title in titles:
  se= pd.Series(title.text, columns)
  df = df.append(se, ignore_index=True)
print(df.index)

出力サンプル

RangeIndex(start=0, stop=20, step=1)

動くサンプル

Python3

pandas入門 .shapeで列数と行数を調べる

2019-03-03T08:54:39+09:00

データをいろいろ扱いたい

pandasには、データを扱うための色々な便利な関数があります。
今回は.shapeでpandasのデータフレームの列数と行数を調べたいと思います。

元となるデータ

元となるデータはCrieitさんのタイトル一覧です。

from bs4 import BeautifulSoup
import requests
import pandas as pd 

columns = ['title']
df = pd.DataFrame(columns=columns) 

base_url = "https://crieit.net/posts?page="

num = 1
while num <= 1:
 url=base_url+ str(num)
 r = requests.get(url)
 soup = BeautifulSoup(r.text)
 titles =soup.select("h5 a")
 if len(titles) == 0:
  print("これ以上記事はありません")  
  break
 num += 1
 for title in titles:
  se= pd.Series(title.text, columns)
  df = df.append(se, ignore_index=True)
df

.shape

.shapeを使うことでデータフレームの行数、列数を簡単に取得できます。
printなどと併せると効果的です。

出来たコード

from bs4 import BeautifulSoup
import requests
import pandas as pd 

columns = ['title']
df = pd.DataFrame(columns=columns) 

base_url = "https://crieit.net/posts?page="

num = 1
while num <= 1:
 url=base_url+ str(num)
 r = requests.get(url)
 soup = BeautifulSoup(r.text)
 titles =soup.select("h5 a")
 if len(titles) == 0:
  print("これ以上記事はありません")  
  break
 num += 1
 for title in titles:
  se= pd.Series(title.text, columns)
  df = df.append(se, ignore_index=True)
print(df.shape)

動くサンプル

Python3

pandas入門 .tail()で末尾から要素を抜き出す

2019-03-03T08:44:30+09:00

データをいろいろ扱いたい

pandasには、データを扱うための色々な便利な関数があります。
前回はheadで任意の要素を頭からとってきました。
今回はスクレイピングデータから末尾から任意の要素を抜き出します。

元となるデータ

元となるデータはCrieitさんのタイトル一覧です。

from bs4 import BeautifulSoup
import requests
import pandas as pd 

columns = ['title']
df = pd.DataFrame(columns=columns) 

base_url = "https://crieit.net/posts?page="

num = 1
while num <= 1:
 url=base_url+ str(num)
 r = requests.get(url)
 soup = BeautifulSoup(r.text)
 titles =soup.select("h5 a")
 if len(titles) == 0:
  print("これ以上記事はありません")  
  break
 num += 1
 for title in titles:
  se= pd.Series(title.text, columns)
  df = df.append(se, ignore_index=True)
df

.tail

.tail()を使うことで末尾から5つの要素を抜き出すことが可能です。
任意の数を表示させる場合はdf.tail(10)などのように引数を渡します。

出来たコード

試しに６つまで取得するコードを書いています。

from bs4 import BeautifulSoup
import requests
import pandas as pd 

columns = ['title']
df = pd.DataFrame(columns=columns) 

base_url = "https://crieit.net/posts?page="

num = 1
while num <= 1:
 url=base_url+ str(num)
 r = requests.get(url)
 soup = BeautifulSoup(r.text)
 titles =soup.select("h5 a")
 if len(titles) == 0:
  print("これ以上記事はありません")  
  break
 num += 1
 for title in titles:
  se= pd.Series(title.text, columns)
  df = df.append(se, ignore_index=True)
df.tail(6)

動くサンプル

Python3

pandas入門 .head()で先頭から要素を抜き出す

2019-03-03T08:30:14+09:00

データをいろいろ扱いたい

google Colaboratoryは、環境構築不要で色々できるのが魅力です。
スクレイピングで得たデータもPythonでごにょごにょしたい。そういう時はpandasを使うようです。
今回はスクレイピングデータから最初から任意の要素を抜き出します。

元となるデータ

元となるデータはCrieitさんのタイトル一覧です。

from bs4 import BeautifulSoup
import requests
import pandas as pd 

columns = ['title']
df = pd.DataFrame(columns=columns) 

base_url = "https://crieit.net/posts?page="

num = 1
while num <= 1:
 url=base_url+ str(num)
 r = requests.get(url)
 soup = BeautifulSoup(r.text)
 titles =soup.select("h5 a")
 if len(titles) == 0:
  print("これ以上記事はありません")  
  break
 num += 1
 for title in titles:
  se= pd.Series(title.text, columns)
  df = df.append(se, ignore_index=True)
df

.head

.head()を使うことで先頭から5つの要素を抜き出すことが可能です。
任意の数を表示させる場合はdf.head(10)などのように引数を渡します。

出来たコード

試しに６つまで取得するコードを書いています。

from bs4 import BeautifulSoup
import requests
import pandas as pd 

columns = ['title']
df = pd.DataFrame(columns=columns) 

base_url = "https://crieit.net/posts?page="

num = 1
while num <= 1:
 url=base_url+ str(num)
 r = requests.get(url)
 soup = BeautifulSoup(r.text)
 titles =soup.select("h5 a")
 if len(titles) == 0:
  print("これ以上記事はありません")  
  break
 num += 1
 for title in titles:
  se= pd.Series(title.text, columns)
  df = df.append(se, ignore_index=True)
df.head(6)

動くサンプル

Python3