机器学习 -11 XX评论情感分析 jieba

本文记录了使用jieba进行机器学习的情感分析过程。在处理大量评论数据(1.5万多条)时,为避免人工审核的繁琐,通过程序建立模型自动分析评论的积极与消极情感。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在别人的基础上测试执行,并写下详细步骤:
项目背景
公司活动,新闻,微博,影评,商品评价等,看看是支持的多,还是反对的多。如此大量的评论数据,如果人工审核比较麻烦、耗费时间,因此通过程序建立模型代替人工审看,分析积极成分多还是消极成分多。 数据量1.5万多 。

import pandas as pd
import numpy as np
import jieba
import re
from sklearn.feature_extraction.text import TfidfVectorizer


# 加载数据集
f = open("emotion_analysis_movie.csv","r",encoding="utf-8")
data = pd.read_csv(f)
print(data.head())

# 数据预处理
#   数据清洗
#     缺失值
data.isnull().sum(axis=0)
#     异常值探索
data['label'].value_counts()
#     重复值探索
data.duplicated().sum()
data.drop_duplicates(inplace=True)

#   数据转换
# 将label与comment列转换为数值类型。
data['label'] = data['label'].map({'pos':1,'neg':0})
data['label'].value_counts()

# 结巴分词
def get_stopword():
    # 默认情况下,在读取文件时,双引号会被解析为特殊的引用符号。
    # 双引号中的内容会正确解析,但是双引号不会解析为文本内容。
    # 在这种情况下,如果文本中仅含有
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值