Pythonで音声認識を行う方法

Pythonには、音声認識を行うための豊富なライブラリがあります。この記事では、Pythonで音声認識を行う方法について説明します。

PyAudioのインストール

Pythonで音声認識を行うためには、まずPyAudioをインストールする必要があります。以下のコマンドを実行して、PyAudioをインストールします。

pip install pyaudio

録音の実装

以下のコードを使用して、Pythonで録音を実装することができます。

import pyaudio
import wave

FORMAT = pyaudio.paInt16
CHANNELS = 1
RATE = 16000
CHUNK = 1024
RECORD_SECONDS = 5
WAVE_OUTPUT_FILENAME = "output.wav"

audio = pyaudio.PyAudio()

# 録音開始
stream = audio.open(format=FORMAT, channels=CHANNELS,
                rate=RATE, input=True,
                frames_per_buffer=CHUNK)
frames = []

for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):
    data = stream.read(CHUNK)
    frames.append(data)

# 録音終了
stream.stop_stream()
stream.close()
audio.terminate()

waveFile = wave.open(WAVE_OUTPUT_FILENAME, 'wb')
waveFile.setnchannels(CHANNELS)
waveFile.setsampwidth(audio.get_sample_size(FORMAT))
waveFile.setframerate(RATE)
waveFile.writeframes(b''.join(frames))
waveFile.close()

音声認識の実装

以下のコードを使用して、PythonでGoogle Cloud Speech-to-Text APIを使用して音声認識を実装することができます。

import io
import os
from google.cloud import speech_v1p1beta1 as speech

os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = "path/to/your/credential.json"

client = speech.SpeechClient()

# 音声ファイルの読み込み
with io.open('output.wav', 'rb') as audio_file:
    content = audio_file.read()

audio = speech.RecognitionAudio(content=content)
config = speech.RecognitionConfig(
    encoding=speech.RecognitionConfig.AudioEncoding.LINEAR16,
    sample_rate_hertz=16000,
    language_code='ja-JP')

# 音声認識の実行
response = client.recognize(config=config, audio=audio)

for result in response.results:
    print('認識結果: {}'.format(result.alternatives[0].transcript))

これで、Pythonで音声認識を行うための基本的な方法がわかりました。

PyAudioのインストール#

録音の実装#

音声認識の実装#

PyAudioのインストール

録音の実装

音声認識の実装