10、机器学习助力个性化新闻与内容传播预测

机器学习助力个性化新闻与内容传播预测

一、支持向量机(SVM)在新闻分类中的应用

1.1 SVM 基础原理

支持向量机(SVM)是一种尝试使用最大间隔超平面将数据点线性分离为不同类别的算法。假设我们有两类数据,想用一条线将它们分开(这里仅处理两个特征或维度)。在选择分隔线时,像图中的线 H1 不能有效区分两类数据,可排除;线 H2 能干净地分开两类数据,但线 H3 是最大间隔线,它位于每类最近点的中心,这些最近点被称为支持向量。

若数据不能如此整齐地分类,存在点的重叠情况,有两种处理方法:
- 软间隔 SVM :仍然最大化间隔,但会对落在间隔错误一侧的点进行惩罚。
- 核技巧 :将数据转换到更高维度的空间,使数据能够被线性分离。例如,将一维特征空间映射到二维特征空间,把每个 x 值映射到 x 和 x²,这样就可以添加一个线性分离平面。

1.2 使用 SVM 进行新闻分类

我们可以将 tf - idf 矩阵输入到 SVM 中进行训练,代码如下:

from sklearn.svm import LinearSVC 

clf = LinearSVC() 
model = clf.fit(tv, df['wanted']) 

这里的 tv 是矩阵,df[‘wanted’] 是标签列表,标签为 y 或 n,表示是否对文章感兴趣。运行上述代码后,模型就训练完成了。需要注意的是,这里没有正式评估模型,通常应该有一个保留集来评估模型,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值