进阶篇：电商商品评论情感分析 + 关键词挖掘（Python NLP 实战）

原创于 2025-12-24 17:14:03 发布 · 789 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #数据库 #人工智能 #开发语言 #网络

API知识分享专栏收录该内容

56 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

电商商品评论是用户反馈的 “黄金数据源”—— 一条差评可能暴露产品核心缺陷，一句好评能提炼出打动消费者的核心卖点。本文聚焦Python NLP 技术，从实战角度拆解电商评论的 “情感分析 + 关键词挖掘” 全流程，帮助电商运营、数据分析师量化用户口碑、定位核心痛点 / 卖点，最终实现数据驱动的商品优化和运营决策。

一、核心价值与技术框架

1. 业务价值

情感分析：量化评论的正面 / 负面倾向，计算商品口碑得分，对比竞品情感分布；
关键词挖掘：从正负评论中提取高频核心词（如差评 “续航短”、好评 “性价比高”），定位用户核心诉求；
落地场景：指导产品迭代（如针对 “做工差” 优化工艺）、优化商品标题 / 详情页（植入好评关键词）、制定售后策略（针对高频差评点提前应对）。

2. 技术框架

本文采用 “数据采集→预处理→情感分析→关键词挖掘→可视化” 全流程，核心技术栈：

环节	核心库 / 工具	作用
数据采集	requests + json /pandas（模拟数据）	获取电商评论数据
文本预处理	jieba（分词）+ 自定义停用词表	清洗非结构化文本
情感分析	SnowNLP（词典法）+ sklearn（机器学习法）	量化情感倾向
关键词挖掘	TF-IDF + LDA 主题建模	提取核心关键词 / 评论主题
可视化	wordcloud + matplotlib + seaborn	直观展示分析结果

二、环境准备

首先安装所需依赖库，建议在 Python 3.8 + 环境下执行：

bash

运行

# 基础数据处理
pip install pandas numpy
# NLP核心库
pip install jieba snownlp scikit-learn
# 可视化库
pip install wordcloud matplotlib seaborn
# 可选（爬虫用）
pip install requests beautifulsoup4

三、数据采集：获取电商评论数据

1. 两种数据获取方式

方式 1：爬虫采集（以京东为例）（注意：需遵守平台 robots 协议，仅用于学习）；
方式 2：使用模拟数据集（本文采用，避免合规风险，可直接替换为真实数据）。

2. 模拟数据集准备

我们构造一份包含 “商品评论 + 评论时间 + 评分” 的电商手机评论数据集，保存为ecommerce_comments.csv：

python

运行

import pandas as pd

# 构造模拟数据
data = {
    "comment": [
        "这款手机续航太拉胯了，充满电用2小时就没电，做工也差，边框割手",
        "性价比绝了！骁龙8Gen2+120Hz屏，拍照效果超预期，物流也快",
        "电池容量大，待机时间长，系统流畅，就是发热有点严重",
        "屏幕显示效果差，色彩失真，售后态度也不好，不推荐购买",
        "手感很好，充电速度快，66W快充半小时充满，价格也划算",
        "信号差，在室内经常断网，卡顿严重，后悔买了",
        "拍照清晰，运行流畅，电池耐用，值得入手",
        "音质差，外放破音，系统广告多，体验感极差",
        "续航能力强，一天一充足够，性价比吊打同价位机型",
        "品控不行，刚用一周就死机，换货还慢，太失望了"
    ],
    "score": [1, 5, 4, 1, 5, 2, 5, 1, 5, 2],
    "time": ["2025-01-01", "2025-01-02", "2025-01-03", "2025-01-04", "2025-01-05",
             "2025-01-06", "2025-01-07", "2025-01-08", "2025-01-09", "2025-01-10"]
}

df = pd.DataFrame(data)
# 保存为CSV
df.to_csv("ecommerce_comments.csv", index=False, encoding="utf-8")
# 读取数据
df = pd.read_csv("ecommerce_comments.csv")
print("数据集基本信息：")
print(df.info())
print("\n前5条数据：")
print(df.head())

四、文本预处理：清洗非结构化评论

原始评论包含噪声（如特殊字符、无意义虚词），需先预处理才能用于 NLP 分析，核心步骤：去重→去特殊字符→分词→去停用词。

1. 预处理函数封装

python

运行

import re
import jieba

# 1. 加载停用词表（可从网上下载通用停用词表，保存为stopwords.txt）
def load_stopwords():
    stopwords = []
    with open("stopwords.txt", "r", encoding="utf-8") as f:
        for line in f:
            stopwords.append(line.strip())
    # 补充电商领域停用词
    stopwords.extend(["这款", "入手", "购买", "推荐", "就是", "有点", "太", "了", "也", "就"])
    return stopwords

stopwords = load_stopwords()

# 2. 文本预处理函数
def preprocess_text(text):
    # 去特殊字符（保留中文）
    text = re.sub(r"[^\u4e00-\u9fa5]", "", text)
    # 分词（精准模式）
    words = jieba.lcut(text)
    # 去停用词+去单字
    words = [word for word in words if word not in stopwords and len(word) > 1]
    # 拼接为字符串（方便后续分析）
    return " ".join(words)

# 3. 应用预处理
df["clean_comment"] = df["comment"].apply(preprocess_text)
print("\n预处理后的数据：")
print(df[["comment", "clean_comment"]].head())

停用词表说明：通用停用词表包含 “的、地、得、啊” 等无意义虚词，电商领域可补充 “这款、入手、购买” 等无业务价值的词汇，确保关键词挖掘的准确性。

五、情感分析：量化评论倾向

本文提供两种情感分析方案：

方案 1：基于词典的 SnowNLP（快速上手，适合轻量分析）；
方案 2：基于机器学习的分类模型（更高准确率，适合精准分析）。

1. 方案 1：SnowNLP 情感分析

SnowNLP 内置中文情感词典，输出 0-1 的情感得分（越接近 1 越正面，越接近 0 越负面）：

python

运行

from snownlp import SnowNLP

# 情感得分计算
def get_snownlp_score(text):
    s = SnowNLP(text)
    return s.sentiments

df["sentiment_score"] = df["clean_comment"].apply(get_snownlp_score)
# 划分情感标签（得分≥0.5为正面，否则负面）
df["sentiment_label"] = df["sentiment_score"].apply(lambda x: "正面" if x >= 0.5 else "负面")

# 结果统计
print("\n情感分析结果统计：")
print(df["sentiment_label"].value_counts())
print("\n情感得分详情：")
print(df[["comment", "sentiment_score", "sentiment_label"]].head())

2. 方案 2：机器学习情感分类（更高准确率）

基于 TF-IDF 提取文本特征，结合朴素贝叶斯模型训练分类器（需标注数据，本文用评分辅助标注：评分≥4 为正面，≤2 为负面）：

python

运行

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

# 1. 标注训练数据（评分≥4=正面(1)，≤2=负面(0)）
df["label"] = df["score"].apply(lambda x: 1 if x >= 4 else 0)

# 2. TF-IDF特征提取
tfidf = TfidfVectorizer(max_features=1000)
X = tfidf.fit_transform(df["clean_comment"]).toarray()
y = df["label"]

# 3. 划分训练集/测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 4. 训练朴素贝叶斯模型
model = MultinomialNB()
model.fit(X_train, y_train)

# 5. 模型评估
y_pred = model.predict(X_test)
print("\n机器学习情感分类评估报告：")
print(classification_report(y_test, y_pred, target_names=["负面", "正面"]))

# 6. 预测新评论
def predict_sentiment(text):
    text_clean = preprocess_text(text)
    text_tfidf = tfidf.transform([text_clean]).toarray()
    pred = model.predict(text_tfidf)[0]
    return "正面" if pred == 1 else "负面"

# 测试预测
test_comment = "这款手机续航超棒，拍照也清晰"
print(f"\n测试评论：{test_comment}")
print(f"预测情感：{predict_sentiment(test_comment)}")

两种方案对比

方案	优点	缺点	适用场景
SnowNLP	无需训练，快速上手	准确率较低，易受语境影响	快速批量分析、初步筛查
机器学习	准确率高，适配业务场景	需标注数据，训练成本稍高	精准分析、核心评论研判

六、关键词挖掘：提取核心痛点 / 卖点

从正负评论中分别提取关键词，定位用户核心诉求，本文采用 “TF-IDF 关键词提取 + LDA 主题建模” 双维度分析。

1. TF-IDF 提取高频关键词

TF-IDF 能衡量词汇在文本中的重要性，适合提取单条评论 / 整体评论的核心词：

python

运行

# 按情感标签拆分数据
positive_comments = df[df["sentiment_label"] == "正面"]["clean_comment"].tolist()
negative_comments = df[df["sentiment_label"] == "负面"]["clean_comment"].tolist()

# TF-IDF提取关键词函数
def extract_keywords(text_list, top_k=5):
    # 拼接所有文本
    text = " ".join(text_list)
    # 分词
    words = jieba.lcut(text)
    # 去停用词
    words = [word for word in words if word not in stopwords and len(word) > 1]
    # 计算词频
    word_count = pd.Series(words).value_counts()
    return word_count.head(top_k)

# 提取正负评论TOP5关键词
positive_keywords = extract_keywords(positive_comments, top_k=5)
negative_keywords = extract_keywords(negative_comments, top_k=5)

print("\n正面评论TOP5关键词：")
print(positive_keywords)
print("\n负面评论TOP5关键词：")
print(negative_keywords)

2. LDA 主题建模：挖掘评论核心主题

LDA 能从评论中挖掘潜在主题（如 “续航”“拍照”“做工”），适合分析评论的整体聚焦点：

python

运行

from sklearn.decomposition import LatentDirichletAllocation

# 1. 准备TF-IDF特征（复用之前的tfidf对象）
X_lda = tfidf.transform(df["clean_comment"]).toarray()

# 2. 训练LDA模型（设定3个主题）
lda = LatentDirichletAllocation(n_components=3, random_state=42)
lda.fit(X_lda)

# 3. 提取每个主题的TOP关键词
def print_lda_topics(model, feature_names, n_top_words):
    for topic_idx, topic in enumerate(model.components_):
        print(f"\n主题{topic_idx+1}：")
        print(" ".join([feature_names[i] for i in topic.argsort()[:-n_top_words - 1:-1]]))

# 输出主题关键词
tfidf_feature_names = tfidf.get_feature_names_out()
print_lda_topics(lda, tfidf_feature_names, n_top_words=5)

七、结果可视化：直观展示分析结论

1. 情感分布可视化

python

运行

import matplotlib.pyplot as plt
import seaborn as sns

# 设置中文字体
plt.rcParams["font.sans-serif"] = ["SimHei"]
plt.rcParams["axes.unicode_minus"] = False

# 情感标签分布柱状图
plt.figure(figsize=(8, 5))
sns.countplot(x="sentiment_label", data=df, palette=["#ff4444", "#00C851"])
plt.title("电商评论情感分布", fontsize=14)
plt.xlabel("情感标签")
plt.ylabel("评论数量")
plt.show()

2. 关键词词云图

分别生成正负评论的词云，直观展示核心关键词：

python

运行

from wordcloud import WordCloud

# 词云生成函数
def generate_wordcloud(text_list, title, color):
    text = " ".join(text_list)
    wc = WordCloud(
        font_path="simhei.ttf",  # 需本地有中文字体文件
        background_color="white",
        max_words=50,
        color_func=lambda *args, **kwargs: color,
        width=800,
        height=400
    ).generate(text)
    plt.figure(figsize=(10, 5))
    plt.imshow(wc)
    plt.axis("off")
    plt.title(title, fontsize=14)
    plt.show()

# 正面评论词云（绿色）
generate_wordcloud(positive_comments, "正面评论核心关键词", "#00C851")
# 负面评论词云（红色）
generate_wordcloud(negative_comments, "负面评论核心关键词", "#ff4444")

八、业务落地建议

产品优化：针对负面关键词（如 “续航短”“做工差”“发热严重”），推动产品团队优化电池容量、工艺设计、散热系统；
运营优化：将正面关键词（如 “性价比高”“充电快”“拍照清晰”）植入商品标题、详情页、广告文案，提升转化；
售后策略：提前针对高频差评点制定应对方案（如 “断网” 问题，推送网络设置教程；“品控” 问题，升级质检流程）；
竞品对比：采集竞品评论做同款分析，对比自身与竞品的核心优势 / 劣势，制定差异化策略。

九、进阶方向

模型升级：替换为 BERT 预训练模型（如 bert4keras），提升情感分析和关键词挖掘的准确率；
实时分析：搭建爬虫 + 定时任务，实时采集评论并自动分析，及时预警负面舆情；
多维度分析：结合用户画像（地域、年龄、消费能力），分析不同群体的评论情感和关键词差异；
语义相似度：挖掘相似差评，定位共性问题（如 “续航短” 和 “电池不耐用” 属于同一问题）。

总结

本文通过 Python NLP 技术完成了电商评论的 “情感分析 + 关键词挖掘” 全流程实战，从数据预处理到模型落地，既兼顾了快速上手的轻量方案（SnowNLP），也提供了更高准确率的机器学习方案。核心价值在于将非结构化的评论文本转化为可落地的业务洞察 —— 让数据不再是 “数字”，而是指导电商商品运营的 “决策依据”。

对于进阶学习者，可进一步结合深度学习模型和实时数据管道，搭建完整的电商评论分析系统，实现从 “事后分析” 到 “实时监控” 的升级。

您可能感兴趣的与本文相关的镜像