自然语言处理中的文本分类、回归与序列建模
1. 文本分类与回归模型
1.1 朴素贝叶斯(Naïve Bayes)
朴素贝叶斯得名于其朴素假设,即所有特征相互独立。它通过特征值来估计类别的概率。虽然从语言学和常识来看,单词之间并非相互独立,但朴素贝叶斯仍是文本分类中常用的基线模型。其概率计算公式如下:
[
P(\text{class}|\text{term} 1, \text{term}_2, \ldots, \text{term}_N) = \frac{P(\text{class})\prod {i = 1}^{N}P(\text{term} i|\text{class})}{\sum {k = 1}^{K}P(\text{class} k)\prod {i = 1}^{N}P(\text{term}_i|\text{class}_k)}
]
如果一个词在所有类别中都很常见,它对该值的贡献不大;但如果一个词是特定类别文档所独有的,那么它将是朴素贝叶斯的重要特征,这与TF-IDF降低常见词重要性的原理类似。
1.2 线性模型(Linear Models)
线性回归和逻辑回归等线性模型假设其预测变量相互独立。在高维空间中,考虑变量之间的交互作用可能不可行。因此,如果计划使用线性模型,需要在特征工程上投入更多精力,尤其要积极减少特征数量。
1.3 决策/回归树(Decision/Regression Trees)
决策树和回归树可以学习非线性关系,且不依赖特征独立性假设。但稀疏特征可能会对其产生不利影响,信息增
超级会员免费看
订阅专栏 解锁全文
5万+

被折叠的 条评论
为什么被折叠?



