机器学习之第4部分:比较深度学习方式方法

本文探讨了词袋模型、平均向量及重心等深度学习方法在自然语言处理中的应用,并通过实验对比了它们的性能差异。文章指出,在某些情况下,分布式词向量技术如段落向量能够提供更好的效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 

4部分:比较深度学习方式方法
 
你可能会问:为什么词袋模型更好?
最大的原因是,在我们的教程中,平均向量,利用重心失去词语的顺序,使其非常相似的概念袋的话。性能是相似的(标准误差范围内)使所有三种方法几乎等价
 
一些尝试:
首先,训练Word2Vec更多的文本应该极大地提高性能。谷歌的搜索结果都是基于词向量是学习的一个多billion-word语料库;我们的标记和未标记的训练集在一起只有区区1800万字左右。方便,Word2Vec提供函数加载任何pre-trained模型由谷歌的原始输出C工具,所以它也可以训练在C模型,然后将其导入Python
 
第二,出版文献中,分布式词向量技术已被证明比袋字模型。本文的算法叫做段落向量在IMDB上使用数据集产生的一些最先进的成果。在某种程度上,它确实比我们尝试的方法因为向量平均和集群失去词序,而段落向量保存订单信息。
 
 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值