贝叶斯应用_文本分析_理论支持

一:停用词
语料中大量出现却没什么作用的词
二:词频(TF)
词频(TF)=某词在文章中的出现次数 / 该文章所有词的出现次数
三:逆文档频率(IDF)
逆文档频率(IDF)=log( 语料库的文档总数 / (包含该词的文档树+1) )
四:Tf-idf 关键词提取
Tf-idf=TF * IDF
五:相似度
对需要求相似度的两个中文句子进行 分词-构建语料库-词频-词频向量-求余弦
六:相似度举例
句子A:我喜欢看电视,不喜欢看电影。
句子B:我不喜欢看电视,也不喜欢看电影。
分词:
句子A:我/喜欢/看/电视,不/喜欢/看/电影。
句子B:我/不/喜欢/看/电视,也/不/喜欢/看/电影。
语料库: 我,喜欢,看,电视,电影,不,也。
词频:
句子A:我 1,喜欢 2,看 2,电视 1,电影 1,不 1,也 0。
句子B:我 1,喜欢 2,看 2,电视 1,电影 1,不 2,也 1。
词频向量:
句子A:[1, 2, 2, 1, 1, 1, 0]
句子B:[1, 2, 2, 1, 1, 2, 1]
这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值