Pythonを使ってウェブページのタイトルを取得する方法について解説します。この記事では、PythonのライブラリであるBeautifulSoupを使用して、HTMLからタイトルを抽出する方法を紹介します。
BeautifulSoupとは
BeautifulSoupは、HTMLやXMLからデータを抽出するためのPythonのライブラリです。ウェブスクレイピングによるデータ取得や解析によく使われます。
ウェブページからタイトルを取得する方法
まず、Pythonのrequestsライブラリを使用して、ウェブページのHTMLデータを取得します。次に、BeautifulSoupを使用して、HTMLからタイトルタグを抽出し、その中身を取得します。以下が、そのコード例です。
import requests
from bs4 import BeautifulSoup
url = "https://www.example.com"
html = requests.get(url).text
soup = BeautifulSoup(html, "html.parser")
title = soup.title.string
print(title)
これで、ウェブページのタイトルが取得できます。
注意点
ウェブスクレイピングには、ウェブサイトの利用規約に違反する場合があります。また、サーバーに負荷をかけることになり、サイト運営者からのアクセス拒否などの措置を受ける可能性があるため、注意が必要です。