Beautiful SoupはPythonのライブラリの一つで、HTMLやXMLなどのテキストから情報を抽出するために使われます。Webスクレイピングのためによく利用されるライブラリの一つであり、特にHTMLの構造を解析して必要な情報を抜き出すことが得意です。
Beautiful Soupのインストール
Beautiful Soupを使うためには、まずはライブラリをインストールする必要があります。以下のコマンドを実行して、Beautiful Soupをインストールしましょう。
!pip install beautifulsoup4
HTMLファイルから情報を抜き出す
Beautiful Soupを使ってHTMLファイルから情報を抜き出すためには、以下の手順を踏みます。
- HTMLファイルを読み込む
- BeautifulSoupオブジェクトを作成する
- 必要な情報を抽出する
# 1. HTMLファイルを読み込む
with open('sample.html', 'r') as f:
html = f.read()
# 2. BeautifulSoupオブジェクトを作成する
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')
# 3. 必要な情報を抽出する
title = soup.title
print(title.text) # タイトルタグ内のテキストを出力する
Webページから情報を抜き出す
Beautiful Soupを使ってWebページから情報を抜き出すためには、以下の手順を踏みます。
- requestsモジュールを使ってWebページのHTMLを取得する
- BeautifulSoupオブジェクトを作成する
- 必要な情報を抽出する
# 1. requestsモジュールを使ってWebページのHTMLを取得する
import requests
url = 'https://example.com'
response = requests.get(url)
html = response.text
# 2. BeautifulSoupオブジェクトを作成する
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')
# 3. 必要な情報を抽出する
title = soup.title
print(title.text) # タイトルタグ内のテキストを出力する
以上が、Beautiful Soupを使ったHTMLからの情報抽出の基本的な使い方です。より詳しい使い方については、公式ドキュメントを参照してください。