PythonでWebスクレイピングをするためのライブラリBeautiful Soupの使い方

Beautiful SoupはPythonのライブラリの一つで、HTMLやXMLなどのテキストから情報を抽出するために使われます。Webスクレイピングのためによく利用されるライブラリの一つであり、特にHTMLの構造を解析して必要な情報を抜き出すことが得意です。

Beautiful Soupのインストール

Beautiful Soupを使うためには、まずはライブラリをインストールする必要があります。以下のコマンドを実行して、Beautiful Soupをインストールしましょう。

!pip install beautifulsoup4

HTMLファイルから情報を抜き出す

Beautiful Soupを使ってHTMLファイルから情報を抜き出すためには、以下の手順を踏みます。

HTMLファイルを読み込む
BeautifulSoupオブジェクトを作成する
必要な情報を抽出する

# 1. HTMLファイルを読み込む
with open('sample.html', 'r') as f:
    html = f.read()

# 2. BeautifulSoupオブジェクトを作成する
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')

# 3. 必要な情報を抽出する
title = soup.title
print(title.text)  # タイトルタグ内のテキストを出力する

Webページから情報を抜き出す

Beautiful Soupを使ってWebページから情報を抜き出すためには、以下の手順を踏みます。

requestsモジュールを使ってWebページのHTMLを取得する
BeautifulSoupオブジェクトを作成する
必要な情報を抽出する

# 1. requestsモジュールを使ってWebページのHTMLを取得する
import requests
url = 'https://example.com'
response = requests.get(url)
html = response.text

# 2. BeautifulSoupオブジェクトを作成する
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')

# 3. 必要な情報を抽出する
title = soup.title
print(title.text)  # タイトルタグ内のテキストを出力する

以上が、Beautiful Soupを使ったHTMLからの情報抽出の基本的な使い方です。より詳しい使い方については、公式ドキュメントを参照してください。