1、路线图概述
朴素贝叶斯;阐释词性标注;
2、获取推特数据
3、朴素贝叶斯分类器介绍
朴素贝叶斯最优工作假设:所有特征相互独立。
贝叶斯定理:P(A)P(B|A)=P(B)|*P(A|B)
将A替换成特征F1,和F2出现的概率,把B想象成我们的类别C,得到P(F1,F2)P(C|F1,F2)=P(C)|*P(F1,F2|C)
得P(C|F1,F2)=P(C)|*P(F1,F2|C)/P(F1,F2)
P(C|F1,F2)就是我们常说的后验概率,P(C)就是在不知道数据时类别C的概率
因为F1和F2假设相对独立,可以得到P(C|F1,F2)=P(C)|*P(F1|C)×P(F2|C)/P(F1,F2)
分类器:由上得到分类器,还需要选择概率最高的类别Cbest,它对真是概率不感兴趣,只关注哪个类别更有可能
Cbest=argmaxP(C=c)×P(F1|C=c)×P(F2|C=c)
考虑未出现词语的情况:加1平滑
考虑算术下溢:log(xy)=log(x)+log(y)
在现实中,只关心哪个类别具有更高的后验概率
4、创建第一个分类器并调优
使用TfidfVectorrize,将原始推文转换为TF-IDF特征值,
调优:
Scikit-learn里面有一个专门处理参数训练类,叫做GridSearchCV,它使用一个估算器,得到最优分类器的参数
5、清洗推文
表情的处理
6、将词语类型考虑进去
本文详细介绍了如何利用朴素贝叶斯算法处理推特数据,包括获取数据、理解朴素贝叶斯分类器的工作原理、创建分类器、调优参数以及清洗推文等关键步骤。
37万+

被折叠的 条评论
为什么被折叠?



