最近、釣りに行った際に、キャッチした魚について口コミを共有するアプリケーションが注目を集めています。そこで、Pythonを使って、その口コミデータを分析する方法を紹介します。
1. 口コミデータのスクレイピング
まず、口コミデータを集めるために、釣りの口コミが書かれているサイトから情報を収集する必要があります。PythonのライブラリであるBeautifulSoupを使用して、Webスクレイピングを行います。
from bs4 import BeautifulSoup
import requests
url = "https://www.fishreview.com/reviews"
page = requests.get(url)
soup = BeautifulSoup(page.content, 'html.parser')
reviews = soup.find_all('div', class_='review')
2. テキストデータの前処理
口コミデータは、テキストデータとして収集されます。しかし、テキストデータは機械学習に適した形式ではありません。したがって、テキストデータを前処理する必要があります。以下は、前処理の例です。
import re
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
nltk.download('stopwords')
nltk.download('punkt')
def preprocess_text(text):
text = text.lower()
text = re.sub(r'\d+', '', text)
text = re.sub(r'[^\w\s]', '', text)
text = word_tokenize(text)
stop_words = set(stopwords.words('english'))
text = [word for word in text if not word in stop_words]
text = ' '.join(text)
return text
for review in reviews:
text = review.find('div', class_='text').get_text()
text = preprocess_text(text)
3. 感情分析
口コミデータを前処理したら、感情分析を行います。感情分析は、テキストデータからポジティブまたはネガティブな感情を判断する方法です。PythonのライブラリであるTextBlobを使用して、感情分析を行います。
from textblob import TextBlob
def sentiment_analysis(text):
blob = TextBlob(text)
sentiment = blob.sentiment.polarity
if sentiment > 0:
return "positive"
elif sentiment == 0:
return "neutral"
else:
return "negative"
for review in reviews:
text = review.find('div', class_='text').get_text()
text = preprocess_text(text)
sentiment = sentiment_analysis(text)
以上の手順で、口コミデータの分析が可能になります。この情報を元に、釣り人が次にどの魚を狙うかを決めることができます。