从线性回归到朴素贝叶斯分类器
1. 多类别分类
之前我们学习了使用逻辑回归进行二分类。然而,在许多分类问题中,存在两个以上的类别。多类别分类的目标是将一个实例分配到一组类别中的某一个。scikit - learn 使用“一对多”(one - versus - all,或 one - versus - the - rest)策略来支持多类别分类。这种策略为每个可能的类别使用一个二分类器,将预测置信度最高的类别分配给实例。
1.1 电影评论情感分类示例
假设你想看电影,但不想看差评电影,也不想看影评。我们可以使用 scikit - learn 来找出好评电影。这里将对烂番茄数据集(Rotten Tomatoes dataset)中电影评论的短语情感进行分类,每个短语可分为以下情感类别之一:负面、有点负面、中立、有点正面或正面。
1.1.1 数据探索
数据可从 http://www.labhenge.com/Datasets/sentiment.analysis.on.movie.reviews.data 下载,使用 pandas 探索数据集:
import pandas as pd
df = pd.read_csv('train.tsv', header=0, delimiter='\t')
print(df.count())
输出结果显示每个列都有 156060 个实例:
PhraseId 156060
SentenceId 1560
超级会员免费看
订阅专栏 解锁全文
1591

被折叠的 条评论
为什么被折叠?



