
自然语言
mn_kw
喜欢研究大数据组件技术,深入内核,后续会更新工作级别的解决方案
展开
-
one-hot
1、什么是独热码 独热码,在英文文献中称做 one-hot code, 直观来说就是有多少个状态就有多少比特,而且只有一个比特为1,其他全为0的一种码制,更加详细参加one_hot code(维基百科)。在机器学习中对于离散型的分类型的数据,需要对其进行数字化比如说性别这一属性,只能有男性或者女性或者其他这三种值,如何对这三个值进行数字化表达?一种简单的方式就是男性为0,女性为1,其他为2,这样...原创 2018-04-23 17:03:37 · 214 阅读 · 0 评论 -
NLTK
英文分词与词性标注我们最熟悉的nltk大概就是上面这样,而且因为适用场景主要是外文数据。所以没怎么碰nltk,这阵子又重新翻看了《用python做自然语言处理》一书(一年前看的时候因为不能处理中文,就没怎么学),发现稍微处理下中文数据,也是可以用强大的nltk实现的。下面我们开始尝试用nltk对中文数据进行分析,看看能做哪些东西。一、搜索词语这一章节,可以让你了解词语上下文查找、相似词语查找、统计...转载 2018-04-20 13:23:05 · 455 阅读 · 0 评论 -
分词库
jieba(结巴)是一个强大的分词库,完美支持中文分词,本文对其基本用法做一个简要总结。安装jiebapip install jieba简单用法结巴分词分为三种模式:精确模式(默认)、全模式和搜索引擎模式,下面对这三种模式分别举例介绍:精确模式import jiebas = u'我想和女朋友一起去北京故宫博物院参观和闲逛。'cut = jieba.cut(s)print '【Output】'...原创 2018-04-20 13:37:19 · 929 阅读 · 0 评论 -
词干提取(stemming)和词形还原(lemmatization)
词形还原(lemmatization),是把一个任何形式的语言词汇还原为一般形式(能表达完整语义),而词干提取(stemming)是抽取词的词干或词根形式(不一定能够表达完整语义)。词形还原和词干提取是词形规范化的两类 重要方式,都能够达到有效归并词形的目的,二者既有联系也有区别。目标一致。词干提取和词形还原的目标均为将词的屈折形态或派生形态简化或归并为词干(stem)或原形的基础形式,都是一种对...转载 2018-04-20 13:52:36 · 728 阅读 · 0 评论 -
Stop words
在中文网站里面其实也存在大量的stop word。比如,我们前面这句话,“在”、“里面”、“也”、“的”、“它”、“为”这些词都是停止词。这些词因为使用频率过高,几乎每个网页上都存在,所以搜索引擎开发人员都将这一类词语全部忽略掉。如果我们的网站上存在大量这样的词语,那么相当于浪费了很多资源。原本可以添加一个关键词,排名就可以上升一名的,为什么不留着添加为关键词呢?停止词对SEO的意义不是越多越好,...原创 2018-04-20 14:03:03 · 1384 阅读 · 0 评论 -
文本相似度
杰卡德(Jaccard)相似系数 这种相似度计算方式相对简单,原理也易于理解,就是计算单词集合之间的交集和并集大小的比例,该值越大,表示两个文本越相似。在涉及到大规模并行计算时,该方法效率上有一定的优势。Jaccard 相似度公式:举例:句子A:“我喜欢看电视,不喜欢看电影。”句子B:“我不喜欢看电视,也不喜欢看电影。” 分词去噪后:A=(我,喜欢,看,电视,电影,不) B=(我,喜欢,看,...转载 2018-04-20 14:25:18 · 367 阅读 · 0 评论 -
TF-IDF
TF:衡量一个term在文档中出现的有多频繁 TF(t) = (t出现在文档中的次数)/(文档中的term总数)IDF:衡量一个term有多重要,有些词出现的很多,但是明显不是很有用,比如的,啊,吧之类的。为了平衡,我们把罕见的词的重要性搞高,把常见词的重要性搞低 IDF(t) = log_e(文档总数/函数t的文档总数) TF-IDF=TF*IDFTFIDF的主要思想是:...原创 2018-04-20 15:25:25 · 221 阅读 · 0 评论 -
NLP
NLP常见任务1. 自动摘要2. 指代消解 小明放学了,妈妈去接他(小明)3. 机器翻译 4. 词性标注 5. 分词 HMM6. 主题识别7. 文本分类8..........原创 2018-04-20 16:30:14 · 330 阅读 · 0 评论