
nlp
勇敢牛牛_
不念往昔,无惧将来。
展开
-
使用jaccard距离计算文本相似度
4. jaccard系数计算文本相似度4.1 jaccard系数jaccard系数反映了两个向量(元素取值为0或1)间的关系。即对于A⃗\vec AA和B⃗\vec BB,定义:NA0B0N_{A_0B_0}NA0B0 = A⃗\vec AA中元素值为0且B⃗\vec BB中元素值为0的个数NA1B0N_{A_1B_0}NA1B0 = A⃗\vec AA中元素值为1且B⃗\ve...原创 2020-02-10 14:18:05 · 11656 阅读 · 0 评论 -
使用编辑距离计算文本相似度
1. 使用simhash计算文本相似度2. 使用余弦相似度计算文本相似度3. 使用编辑距离计算文本相似度3. 最小编辑距离计算文本相似度3.1 编辑距离概念:通俗来讲,编辑距离Edit Distance(ED),是指将一个字符串转化为另一个字符串所需的最少操作数。操作包含以下几种:增:增加一个字符删:删除一个字符改:修改一个字符举例:将“abc”转化为“acb”。通...原创 2020-02-05 19:56:16 · 11734 阅读 · 0 评论 -
使用余弦相似度计算文本相似度
余弦相似性:两个向量的夹角越接近于0,其余弦值越接近于1,表面两个向量越相似。**文本相似度计算大致流程:**- 分词- 合并- 计算特征值- 向量化- 计算向量夹角余弦值原创 2020-02-02 20:03:12 · 12848 阅读 · 6 评论 -
使用simhash计算文本相似度
文本相似度计算常用于网页去重以及NLP里文本分析等场景。文本相似度,可以分为两种,一种是字面相似度,另一种是语义相似度。本文记录的是文本的字面相似度的计算及实现,语义相似度计算则需要海量数据去计算语义值,较为复杂。最常用的且最简单的两种文本相似检测方法:局部敏感hash、余弦相似度原创 2020-01-30 17:37:56 · 9173 阅读 · 2 评论 -
【nlp】文本情感分析
基于词典的情感分析 情感分析对象的粒度最小是词汇,但是表达一个情感的最基本的单位则是句子,词汇虽然能描述情感的基本信息,但是单一的词汇缺少对象,缺少关联程度,并且不同的词汇组合在一起所得到的情感程度不同甚至情感倾向都相反。所以以句子为最基本的情感分析粒度是较为合理的。篇章或者段落的情感可以通过句子的情感来计算。 基于词典的情感分析大致步骤如下: 分解文章段落 分解段落中的句子 分解句子中的转载 2017-08-18 20:24:50 · 3844 阅读 · 0 评论 -
【nlp】湖北师范大学贴吧帖子标题词频统计
湖北师范大学贴吧帖子标题词频统计抓取地址:http://tieba.baidu.com/f?kw=%E6%B9%96%E5%8C%97%E5%B8%88%E8%8C%83%E5%A4%A7%E5%AD%A6&ie=utf-8&pn=0其中参数pn为分页条数,增量为50,尾页的pn值为7400共抓取到10389条帖子的标题,经过分词、过滤,获取到7134个词语,对这些词语进行词频统计,并进行排序。结果原创 2017-10-10 15:20:45 · 956 阅读 · 0 评论 -
QQ聊天记录分析器
QQ聊天记录分析器功能分析QQ聊天记录数据,包含一下分析结果:消息条数消息记录转化为消息实体消息记录中聊天天数最早的一条消息最近的一条消息最晚的10条记录活跃时间词频统计使用方法1.用QQ或者tim导出聊天记录2.导入qqmsg包。qqmsg包下载 QqMsgData qqMsgData = new QqMsgData("消息文件路径")...原创 2018-02-20 21:12:46 · 2461 阅读 · 0 评论