机器学习 -11 XX评论情感分析 jieba_jieba加载电影评论语料库,提取电影评论和的情感标签-优快云博客

本文链接：https://blog.youkuaiyun.com/sj1565/article/details/90709034

本文记录了使用jieba进行机器学习的情感分析过程。在处理大量评论数据（1.5万多条）时，为避免人工审核的繁琐，通过程序建立模型自动分析评论的积极与消极情感。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在别人的基础上测试执行，并写下详细步骤：
项目背景
公司活动，新闻，微博，影评，商品评价等，看看是支持的多，还是反对的多。如此大量的评论数据，如果人工审核比较麻烦、耗费时间，因此通过程序建立模型代替人工审看，分析积极成分多还是消极成分多。数据量1.5万多。

import pandas as pd
import numpy as np
import jieba
import re
from sklearn.feature_extraction.text import TfidfVectorizer


# 加载数据集
f = open("emotion_analysis_movie.csv","r",encoding="utf-8")
data = pd.read_csv(f)
print(data.head())

# 数据预处理
#   数据清洗
#     缺失值
data.isnull().sum(axis=0)
#     异常值探索
data['label'].value_counts()
#     重复值探索
data.duplicated().sum()
data.drop_duplicates(inplace=True)

#   数据转换
# 将label与comment列转换为数值类型。
data['label'] = data['label'].map({'pos':1,'neg':0})
data['label'].value_counts()

# 结巴分词
def get_stopword():
    # 默认情况下，在读取文件时，双引号会被解析为特殊的引用符号。
    # 双引号中的内容会正确解析，但是双引号不会解析为文本内容。
    # 在这种情况下，如果文本中仅含有