
Python
Atishoo_13
这个作者很懒,什么都没留下…
展开
-
TextRank算法获取文本关键词
TextRank算法获取文本关键词1.PageRank在了解TextRank前,首先一定要知道PageRank,实质上个人认为可以把TextRank当做PageRank2.0。谷歌的两位创始人的佩奇和布林,借鉴了学术界评判学术论文重要性的通用方法,“那就是看论文的引用次数”。由此想到网页的重要性也可以根据这种方法来评价。于是PageRank的核心思想就诞生了:如果一个网页被很多其他网页链...原创 2019-01-23 19:48:23 · 1127 阅读 · 0 评论 -
基于Python的jieba中文分词包的安装
基于Python的jieba中文分词包的安装“结巴”中文分词:做最好的 Python 中文分词组件1.特点支持三种分词模式:精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。支持繁体分词支持自定义词典MIT 授...原创 2019-01-16 21:41:55 · 1685 阅读 · 1 评论 -
中文分词工具jieba中的词性类型
中文分词工具jieba中的词性类型jieba为自然语言语言中常用工具包,jieba具有对分词的词性进行标注的功能,词性类别如下:Ag形语素形容词性语素。形容词代码为 a,语素代码g前面置以A。a形容词取英语形容词 adjective的第1个字母。ad副形词直接作状语的形容词。形容词代码 a和副词代码d并在一起。an名形词具有名词功能的形容词。形容词...原创 2019-01-16 21:34:28 · 574 阅读 · 1 评论 -
jieba-基于 TF-IDF 算法的关键词抽取
jieba-基于 TF-IDF 算法的关键词抽取通过上述三篇文章的介绍(详见其他的博客),接下来将对TF-IDF算法的实现进行介绍。jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())sentence 为待提取的文本topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20...原创 2019-01-20 20:31:46 · 6076 阅读 · 3 评论 -
TF-IDF与余弦相似性的应用(三):自动摘要
TF-IDF与余弦相似性的应用(三):自动摘要有时候,很简单的数学方法,就可以完成很复杂的任务。仅仅依靠统计词频,就能找出关键词和相似文章,这两部分就是很好的例子。虽然它们算不上效果最好的方法,但肯定是最简便易行的方法。本文讨论如何通过词频,对文章进行自动摘要(Automatic summarization)。1.分簇如果能从3000字的文章,提炼出150字的摘要,就可以为读者节省大量...原创 2019-01-20 20:21:26 · 423 阅读 · 0 评论 -
TF-IDF与余弦相似性的应用(二):找出相似文章
TF-IDF与余弦相似性的应用(二):找出相似文章今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"百度新闻"在主新闻下方,还提供多条相似的新闻。为了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。为了能够更好的理解这个概念,我们先从句子着手。句子A:我喜欢看电视,不喜欢看电影句子B:我不喜欢看电视...原创 2019-01-20 20:14:47 · 358 阅读 · 0 评论 -
TF-IDF与余弦相似性的应用(一):自动提取关键词
TF-IDF与余弦相似性的应用(一):自动提取关键词 如何完全不加人工干预,正确做到从一篇很长的文章中提取它的关键词(Automatic Keyphrase extraction)? 这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非常简单的经典算法,可以给出令人相当满意的结果,这就是我今天想要介绍的TF-IDF算法。...原创 2019-01-20 20:11:38 · 438 阅读 · 0 评论 -
TF-IDF和TextRank算法抽取关键词源码分析
TF-IDF和TextRank算法抽取关键词源码分析jieba分词的关键词抽取功能,是在jieba/analyse目录下实现的。其中,__ init__.py主要用于封装jieba分词的关键词抽取接口;tfidf.py实现了基于TF-IDF算法抽取关键词;textrank.py实现了基于TextRank算法抽取关键词。1.TF-IDF算法基于TF-IDF算法抽取关键词的主调函数...原创 2019-01-23 19:53:30 · 1880 阅读 · 2 评论 -
jieba-基于TextRank关键词提取的实现
jieba-基于TextRank关键词提取的实现对每个句子进行分词和词性标注处理过滤掉除指定词性外的其他单词,过滤掉出现在停用词表的单词,过滤掉长度小于2的单词将剩下的单词中循环选择一个单词,将其与其后面4个单词分别组合成4条边。例如:[‘有’,‘媒体’, ‘曝光’,‘高圆圆’, ‘和’, ‘赵又廷’,‘现身’, ‘台北’, ‘桃园’,‘机场’,‘的’, ‘照片’]对于‘媒体‘这个单...原创 2019-01-23 19:51:39 · 2479 阅读 · 2 评论 -
jieba——分词、添加词典、词性标注、Tokenize
jieba——分词、添加词典、词性标注、Tokenize1.分词jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型jieba.cut_for_search 方法接受两个参数:需要分词的字符串;是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细待分词的字符串可以是 ...原创 2019-01-16 21:51:53 · 19348 阅读 · 1 评论