13、自然语言处理中的文本分类、回归与序列建模

自然语言处理中的文本分类、回归与序列建模

1. 文本分类与回归模型

1.1 朴素贝叶斯(Naïve Bayes)

朴素贝叶斯得名于其朴素假设,即所有特征相互独立。它通过特征值来估计类别的概率。虽然从语言学和常识来看,单词之间并非相互独立,但朴素贝叶斯仍是文本分类中常用的基线模型。其概率计算公式如下:
[
P(\text{class}|\text{term} 1, \text{term}_2, \ldots, \text{term}_N) = \frac{P(\text{class})\prod {i = 1}^{N}P(\text{term} i|\text{class})}{\sum {k = 1}^{K}P(\text{class} k)\prod {i = 1}^{N}P(\text{term}_i|\text{class}_k)}
]
如果一个词在所有类别中都很常见,它对该值的贡献不大;但如果一个词是特定类别文档所独有的,那么它将是朴素贝叶斯的重要特征,这与TF-IDF降低常见词重要性的原理类似。

1.2 线性模型(Linear Models)

线性回归和逻辑回归等线性模型假设其预测变量相互独立。在高维空间中,考虑变量之间的交互作用可能不可行。因此,如果计划使用线性模型,需要在特征工程上投入更多精力,尤其要积极减少特征数量。

1.3 决策/回归树(Decision/Regression Trees)

决策树和回归树可以学习非线性关系,且不依赖特征独立性假设。但稀疏特征可能会对其产生不利影响,信息增

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值