PythonでPDFファイルから特定の文字列を抽出する方法

Pythonを使用してPDFファイルから特定の文字列を抽出する方法を説明します。この方法は、PyPDF2というライブラリを使用します。

PyPDF2のインストール

以下のコマンドを使用して、PyPDF2ライブラリをインストールします。

pip install PyPDF2

コードの実装

以下のコードを使用して、PDFファイルから文字列を抽出することができます。

import PyPDF2

pdf_file = open('sample.pdf', 'rb')
pdf_reader = PyPDF2.PdfFileReader(pdf_file)

text = ''
for page_num in range(pdf_reader.numPages):
    page = pdf_reader.getPage(page_num)
    text += page.extractText()

search_string = '検索する文字列'
if search_string in text:
    print('文字列が見つかりました！')

このコードでは、sample.pdfというファイルから全ページを読み取り、抽出されたテキストをtext変数に追加しています。その後、search_stringという文字列を検索して、見つかった場合にメッセージを出力します。

以上が、Pythonを使用してPDFファイルから特定の文字列を抽出する方法です。

PyPDF2のインストール#

コードの実装#

PyPDF2のインストール

コードの実装