-
wordcloud
-
出现的问题:
Q1:ImportError: cannot import name ‘WordCloud’ from ‘wordcloud’
解决:不能将文件名命名为‘wordcloud’ -
如何改变词云的形状
参考链接:https://www.jianshu.com/p/656c978764cb -
分词
-
分词的主要目的:让计算机更好的把握每个词的含义。
-
英文分词
手动分词
参考链接:https://blog.youkuaiyun.com/wawj9393/article/details/78365446
利用nltk来分词
参考链接:https://blog.youkuaiyun.com/zzulp/article/details/77150129
还可以标记出词的词性、还原缩写、时态等
https://www.jianshu.com/p/9d232e4a3c28 (这篇更好) -
过滤停用词
参考之前的“舆情分析”的论文 -
词频统计
-
CountVectorizer
统计文本词频,转化为数学向量的形式。(词频矩阵) -
文本特征提取 eg.TF-IDF/One-hot
优缺点对比参考链接:https://www.cnblogs.com/lianyingteng/p/7755545.html -
TF-IDF
TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse Document Frequency)
该技术采用一种统计方法, 根据字词在文本中出现的次数和在整个语料中出现的文档频率来计算一 个字词在整个语料中的重要程度。
用于统计矩阵中每个词语的TF-IDF值(一种加权技术)
参考链接:https://www.cnblogs.com/lianyingteng/p/7755545.html (使用) -
舆情分析
-
判断positive还是negative是一个二分类问题
-
method 1. 朴素贝叶斯
参考链接:https://www.jianshu.com/p/845b16559431
-
出现问题“ValueError: dimension mismatch”是指测试集和训练集的维度不同
解决方法:1.将X = vectorizer.fit_transform(review) tfidf = transformer.fit_transform(X)中的fit删除
之间的不同参考链接:https://blog.youkuaiyun.com/qq_28334183/article/details/88896111
2.将测试集和训练集利用append()链接在一起,再一起计算TF-IDF值
all_append = train_review.append(test_review) -
判断好坏
-
建立模型之后需要评价模型的好坏
大概介绍
参考链接:https://www.jianshu.com/p/41f434818ffc
AUC和ROC
参考链接:https://blog.youkuaiyun.com/u013385925/article/details/80385873
详细AUC参考链接:https://tracholar.github.io/machine-learning/2018/01/26/auc.html
python做情感分析
最新推荐文章于 2025-03-29 12:36:19 发布