机器学习:文本挖掘

本文探讨了数据挖掘与文本挖掘的差异,强调非结构化数据处理的重要性。介绍了分词方案,包括基于字符串匹配和统计的方法,并分别讨论了中英文预处理的特点。接着,分析了TF-IDF的不足,并提出word2vec作为改进方案。此外,阐述了文本相似度计算,特别是余弦相似度在文本聚类中的应用。还涉及了朴素贝叶斯分类器和文本降维技术,如Hash Trick,以及主题模型的概念。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.数据挖掘与文本挖掘的区别(结构化数据,非结构化数据)

2.分词方案(基于字符串匹配,基于统计)

https://www.zhihu.com/question/19578687

3.中英文预处理区别

英文:https://www.cnblogs.com/pinard/p/6756534.html

中文:http://m.blog.youkuaiyun.com/lucky_ricky/article/details/78221210

4.TF-IDF缺点(缺点是有时候用词频来衡量文章中的一个词的重要性不够全面,有时候重要的词出现的可能不够多,而且这种计算无法体现位置信息,无法体现词在上下文的重要性。如果要体现词的上下文结构,那么你可能需要使用word2vec算法来支持。)

5.文本相似度计算(向量空间表示后计算余弦值)

6.如何用 word2vec 计算两个句子之间的相似度?

https://www.zhihu.com/question/29978268

7.欧氏距离和余弦相似度的区别是什么?

https://www.zhihu.com/question/19640394

在文本聚类中,一般是用欧氏距离还是余弦值?从sta

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值