coursera NLP学习笔记之week3 文本分类和朴素贝叶斯

本文介绍文本分类任务及应用,包括垃圾邮件识别、作者身份识别等,并详细讲解了朴素贝叶斯分类器的工作原理及其在文本分类中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第一节:文本分类的任务

1,为目标文本分配类别,主题,或者流派

2,垃圾邮件识别

3,作者身份识别

4,年龄,性别的识别

5,语言的识别

6,情感分析

文本分类的定义:输入:1,文档d,2,类的一个混合的集合 C = {c1,c2,c3....cj};输出:一个预测类c,这个类属于集合C .

分类的方法:1、手写规则,规则是由单词和其他特征组合而成,精度很高,但是成本昂贵。2,、有指导的机器学习,输入文档d和类的一个混合集合,还有一个文档训练集合,用手工的方式标注文档(d1,c1)...(dm,cm);输出一个学习过的分类器gama:可以将d分类到某一类c中去,即d->c。这样的分类器有:朴素贝叶斯分类器,线性回归分类器,支持向量机分类器,K-紧邻分类器,Naive Bayes,Logistic regression,Support_vector machine,K-Nearest Neighbors。

第二节:朴素贝叶斯

朴素贝叶斯,基于贝叶斯公式和词袋原理,词袋原理忽略了单词的位置等其他特征,他表示的就是单词在文本出现的次数。

我们最后计算的目的就是计算文档d在类c中的概率。文档d 可以用那些特征词来代替。




未完待续。。。。


基于python实现的粒子群的VRP(车辆配送路径规划)问题建模求解+源码+项目文档+算法解析,适合毕业设计、课程设计、项目开发。项目源码已经过严格测试,可以放心参考并在此基础上延申使用,详情见md文档 算法设计的关键在于如何向表现较好的个体学习,标准粒子群算法引入惯性因子w、自我认知因子c1、社会认知因子c2分别作为自身、当代最优解历史最优解的权重,指导粒子速度位置的更新,这在求解函数极值问题时比较容易实现,而在VRP问题上,速度位置的更新则难以直接采用加权的方式进行,一个常见的方法是采用基于遗传算法交叉算子的混合型粒子群算法进行求解,这里采用顺序交叉算子,对惯性因子w、自我认知因子c1、社会认知因子c2则以w/(w+c1+c2),c1/(w+c1+c2),c2/(w+c1+c2)的概率接受粒子本身、当前最优解、全局最优解交叉的父代之一(即按概率选择其中一个作为父代,不加权)。 算法设计的关键在于如何向表现较好的个体学习,标准粒子群算法引入惯性因子w、自我认知因子c1、社会认知因子c2分别作为自身、当代最优解历史最优解的权重,指导粒子速度位置的更新,这在求解函数极值问题时比较容易实现,而在VRP问题上,速度位置的更新则难以直接采用加权的方式进行,一个常见的方法是采用基于遗传算法交叉算子的混合型粒子群算法进行求解,这里采用顺序交叉算子,对惯性因子w、自我认知因子c1、社会认知因子c2则以w/(w+c1+c2),c1/(w+c1+c2),c2/(w+c1+c2)的概率接受粒子本身、当前最优解、全局最优解交叉的父代之一(即按概率选择其中一个作为父代,不加权)。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值