2、巴西Twitter政治抗议活动分析

巴西Twitter政治抗议活动分析

1. 分类算法基础

1.1 朴素贝叶斯概率估计

在分类任务中,从训练数据里估计概率是关键步骤。对于类别 $c$ 的先验概率 $p(c)$,可以简单地通过分类为 $c$ 的对象比例来估计。而对于 $p(X|c)$ 和 $p(X)$ 的估计,利用独立性假设:
- $p(X) = p(x_1) \cdot p(x_2) \cdots p(x_n)$
- $p(X|c) = p(x_1|c) \cdot p(x_2|c) \cdots p(x_n|c)$

在估计完这些概率后,新对象的分类可通过找出给定对象特征下概率最大的类别 $c$ 来实现。

1.2 支持向量机(SVM)

支持向量机是对线性回归模型的扩展,旨在解决两个问题:
- 数据线性可分假设问题 :分类任务中,简单假设对象是线性可分的,即不同类别的对象可用简单线性方程分离。但实际中该假设很少成立,因此需要构建或学习一组新特征,作为原始特征集的非线性组合。为解决此问题,SVM引入了核函数 $k(x, y)$,它以原始特征集描述的两个对象为输入,计算它们在不同空间的距离,无需显式转换特征空间,具有高效的计算成本。常见的核函数有线性核、多项式核和径向基函数(RBF)核,后两者为非线性核。
- 训练数据过拟合问题 :线性回归的目标是找到使训练数据误差最小的分离线,而SVM的目标函数是最大化包围分离线的间隔。通过最大化此间隔,不仅能最小化训练数据的分类误差,还能为未见过的数据保留一定的泛化空间。

2. 相关研究工作

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值