前言
本文使用朴素贝叶斯算法实现 豆瓣Top250电影评价的情感分析与预测。
最近在学习自然语言正负面情感的处理问题,但是绝大部分能搜索到的实践都是Kggle上IMDB影评的情感分析。
所以在这里我就用最基础的朴素贝叶斯算法来对豆瓣的影评进行情感分析与预测。
朴素贝叶斯分类器
贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。
这种算法常用来做文章分类,垃圾邮、件垃圾评论分类,朴素贝叶斯的效果不错并且成本很低。
已知某条件概率,如何得到两个事件交换后的概率,也就是在已知P(A|B)的情况下如何求得P(B|A)。
P(B|A)表示事件A已经发生的前提下,事件B发生的概率,叫做事件A发生下事件B的条件概率。
朴素贝叶斯的公式
一个通俗易懂的视频教程
Youtube https://www.youtube.com/watch?v=AqonCeZUcC4
举个不太恰当的例子
我们想知道做程序员与秃头之间的关系,我们就可以用朴素贝叶斯公式来进行计算。
我们现在想求 P(秃头|做程序员) 的概率, 也就是做程序员就会秃头的概率
我这辈子都不会秃头 (((o(゚▽゚)o))) !!!
代入朴素贝叶斯公式
已知数据如下表
基于朴素贝叶斯公式,由以上这张表我们可以求出:
上面这个例子就简单的描述了朴素贝叶斯公式的基本用法。
接下来我就使用豆瓣Top250排行榜的影评来使用朴素贝叶斯进行好评与差评的训练与预测。
豆瓣Top250影评情感分析
首先需要豆瓣Top250影评的语料,我用Scrapy抓取了5w份语料,用于训练与验证。
GitHub - 3inchtime/douban_movie_review: 豆瓣Top250影评爬虫(用于情感分析语料)豆瓣影评爬虫GitHub - 3inchtime