在别人的基础上测试执行,并写下详细步骤:
项目背景
公司活动,新闻,微博,影评,商品评价等,看看是支持的多,还是反对的多。如此大量的评论数据,如果人工审核比较麻烦、耗费时间,因此通过程序建立模型代替人工审看,分析积极成分多还是消极成分多。 数据量1.5万多 。
import pandas as pd
import numpy as np
import jieba
import re
from sklearn.feature_extraction.text import TfidfVectorizer
# 加载数据集
f = open("emotion_analysis_movie.csv","r",encoding="utf-8")
data = pd.read_csv(f)
print(data.head())
# 数据预处理
# 数据清洗
# 缺失值
data.isnull().sum(axis=0)
# 异常值探索
data['label'].value_counts()
# 重复值探索
data.duplicated().sum()
data.drop_duplicates(inplace=True)
# 数据转换
# 将label与comment列转换为数值类型。
data['label'] = data['label'].map({'pos':1,'neg':0})
data['label'].value_counts()
# 结巴分词
def get_stopword():
# 默认情况下,在读取文件时,双引号会被解析为特殊的引用符号。
# 双引号中的内容会正确解析,但是双引号不会解析为文本内容。
# 在这种情况下,如果文本中仅含有