Pythonには、Webスクレイピングに役立つ多数のライブラリが存在します。その中でも、特に有名なライブラリとして「Beautiful Soup」と「Scrapy」が挙げられます。
Beautiful Soup
Beautiful Soupは、HTMLやXMLファイルを解析し、情報を抽出するためのPythonライブラリです。簡単なAPIと柔軟性があり、Python初心者でも簡単に利用できます。
以下は、Beautiful Soupを使用してWebページからタイトルを抽出する例です。
from bs4 import BeautifulSoup
import requests
url = "https://example.com/"
response = requests.get(url)
soup = BeautifulSoup(response.content, "html.parser")
title = soup.find("title").text
print(title)
上記の例では、requestsライブラリを使用してWebページの内容を取得し、Beautiful Soupを使用してタイトルを抽出しています。
Scrapy
Scrapyは、Pythonで書かれたオープンソースのWebクローラーフレームワークです。Scrapyを使用することで、複数のページを並列でスクレイピングし、大量のデータを高速かつ効率的に収集することができます。
以下は、Scrapyを使用してWebページからタイトルを抽出する例です。
import scrapy
class MySpider(scrapy.Spider):
name = "example.com"
start_urls = ["https://example.com/"]
def parse(self, response):
title = response.css("title::text").get()
print(title)
上記の例では、Scrapyを使用してWebページの内容を取得し、CSSセレクターを使用してタイトルを抽出しています。