9、从线性回归到朴素贝叶斯分类器

从线性回归到朴素贝叶斯分类器

1. 多类别分类

之前我们学习了使用逻辑回归进行二分类。然而,在许多分类问题中,存在两个以上的类别。多类别分类的目标是将一个实例分配到一组类别中的某一个。scikit - learn 使用“一对多”(one - versus - all,或 one - versus - the - rest)策略来支持多类别分类。这种策略为每个可能的类别使用一个二分类器,将预测置信度最高的类别分配给实例。

1.1 电影评论情感分类示例

假设你想看电影,但不想看差评电影,也不想看影评。我们可以使用 scikit - learn 来找出好评电影。这里将对烂番茄数据集(Rotten Tomatoes dataset)中电影评论的短语情感进行分类,每个短语可分为以下情感类别之一:负面、有点负面、中立、有点正面或正面。

1.1.1 数据探索

数据可从 http://www.labhenge.com/Datasets/sentiment.analysis.on.movie.reviews.data 下载,使用 pandas 探索数据集:

import pandas as pd
df = pd.read_csv('train.tsv', header=0, delimiter='\t')
print(df.count())

输出结果显示每个列都有 156060 个实例:

PhraseId       156060
SentenceId     1560
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值