
自然语言处理(NLP)专栏
文章平均质量分 62
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
IT界的小小小学生
写文章的目标不仅是解决问题,更是帮助阅读的人或企业实现商业价值。秉持 “从解决问题出发、在实践中学习,最终创造价值”的信念,予人玫瑰手留余香!
展开
-
python jieba分词(结巴分词)、提取词,加载词,修改词频,定义词库
转载请注明出处 “结巴”中文分词:做最好的 Python 中文分词组件,分词模块jieba,它是python比较好用的分词模块, 支持中文简体,繁体分词,还支持自定义词库。 jieba的分词,提取关键词,自定义词语。 结巴分词的原理 这里写链接内容一、 基于结巴分词进行分词与关键词提取1、jieba.cut分词三种模式jieba.cut 方法接受三个输入参数: 需要分原创 2017-08-02 17:13:10 · 45768 阅读 · 3 评论 -
自然语言处理-搜索中常用的bm25
BM25算法是一种常见用来做相关度打分的公式,思路比较简单,主要就是计算一个query里面所有词和文档的相关度,然后在把分数做累加操作,而每个词的相关度分数主要还是受到tf/idf的影响。关于BimBIM(二元假设模型)对于单词特征,只考虑单词是否在doc中出现过,并没有考虑单词本身的相关特征,BM25在BIM的基础上引入单词在查询中的权值,单词在doc中的权值,以及一些经验参数,所以BM25...原创 2019-11-22 19:29:39 · 1210 阅读 · 0 评论 -
NLP之tfidf与textrank算法细节对比基于结巴分词
-NLP之tfidf与textrank算法细节对比 注:结巴默认在site-packages目录 关于结巴分词的添加停用词以及增加词相关操作可参考之前的博客,这里重点说下结巴关键词提取的两个算法1.tfidf算法 官方文档如下:extract_tags(sentence, topK=20, withWeight=False, allowPOS=(), withFlag=False) meth原创 2017-09-26 17:24:47 · 4814 阅读 · 0 评论 -
textrank算法原理与提取关键词、自动提取摘要PYTHON
首先介绍原理与概念TextRank 算法是一种用于文本的基于图的排序算法。其基本思想来源于谷歌的 PageRank算法(其原理在本文在下面), 通过把文本分割成若干组成单元(单词、句子)并建立图模型, 利用投票机制对文本中的重要成分进行排序, 仅利用单篇文档本身的信息即可实现关键词提取、文摘。和 LDA、HMM 等模型不同, TextRank不需要事先对多篇文档进行学习训练, 因其简洁有效而得原创 2017-09-19 17:42:46 · 20439 阅读 · 0 评论 -
python—结巴分词的原理理解,Hmm中的转移概率矩阵和混淆矩阵。
结巴分词的过程: jieba分词的python 代码结巴分词的准备工作 开发者首先根据大量的人民日报训练了得到了字典库、和Hmm中的转移概率矩阵和混淆矩阵。 1. 加载字典, 生成trie树 为什么要加载字典树呢,是因为如果没有字典树,那么扫描将会是一个庞大的工程,有了字典树就可以在该分支上扫描。例如扫描“中国人民银行”(正向最大匹配)先扫描6个字的字典库,找到了“中国人民银行”,然原创 2017-12-05 17:29:08 · 4969 阅读 · 0 评论 -
Huffman tree(赫夫曼树、霍夫曼树、哈夫曼树、最优二叉树)
什么是哈夫曼树呢?哈夫曼树是一种带权路径长度最短的二叉树,也称为最优二叉树。下面用一幅图来说明。它们的带权路径长度分别为:图a: WPL=5*2+7*2+2*2+13*2=54图b: WPL=5*3+2*3+7*2+13*1=48可见,图b的带权路径长度较小,我们可以证明图b就是哈夫曼树(也称为最优二叉树)。哈夫曼编码用哈夫曼树求得的用于通信的二进制编码称为哈夫...原创 2018-06-19 11:54:28 · 3769 阅读 · 0 评论 -
N元分词算法
在自然语言处理中,我们经常需要用到n元语法模型。其中,有关中文分词的一些概念是我们需要掌握的,譬如:unigram 一元分词,把句子分成一个一个的汉字bigram 二元分词,把句子从头到尾每两个字组成一个词语trigram 三元分词,把句子从头到尾每三个字组成一个词语.我们来简单的做个练习:输入的是断好词的文本,每个句子一行。统计词unigram和bigram的频次,并原创 2017-03-14 17:45:18 · 3519 阅读 · 0 评论 -
Python生成词云图,TIIDF方法文本挖掘: 词频统计,词云图
python中使用wordcloud包生成的词云图。下面来介绍一下wordcloud包的基本用法。class wordcloud.WordCloud(font_path=None, width=400, height=200, margin=2, ranks_only=None, prefer_horizontal=0.9,mask=None, scale=1, color_func=None, m原创 2017-08-27 18:46:23 · 14672 阅读 · 0 评论 -
自然语言处理之hanlp,Python调用与构建,分词、关键词提取、命名主体识别
转载请注明出处:https://blog.youkuaiyun.com/HHTNANHanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。在Python中一种是直接调用hanlp的接口pyhanlp.还有就是导入其基于Java的原始配置文件。关于pyhanlpHanL...原创 2018-08-21 15:30:53 · 13503 阅读 · 2 评论 -
关于kenlm工具训练统计语言模型
概述统计语言模型工具有比较多的选择,目前使用比较好的有srilm及kenlm,其中kenlm比srilm晚出来,训练速度也更快,而且支持单机大数据的训练。现在介绍一下kenlm的使用方法。特征“语言行业最大的改进是增加了新的语言模型KenLM,它快速,节省内存,最重要的是,允许在开源许可下使用多核处理器。”比SRILM和IRSTLM 更快,更低的内存。使用用户指定的RAM 进行磁盘估计...原创 2018-11-19 10:19:41 · 5431 阅读 · 0 评论 -
详尽解读正则表达式:python下的re方法
关于正则表达式正则表达式,又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。在很多文本编辑器里,正则表达式通常被用来检索、替换那些匹配某个模式的文本。许多程序设计语言都支持利用正则表达式进行字符串操...原创 2018-11-30 14:51:18 · 1355 阅读 · 0 评论 -
自然语言处理之命名实体识别-tanfordcorenlp-NER(一)
CoreNLP 项目是Stanford开发的一套开源的NLP系统。包括tokenize, pos , parse 等功能,与SpaCy类似。SpaCy号称是目前最快的NLP系统, 并且提供现成的python接口,但不足之处就是目前还不支持中文处理, CoreNLP则包含了中文模型,可以直接用于处理中文, 但CoreNLP使用Java开发,python调用稍微麻烦一点。Stanford CoreN...原创 2018-12-18 11:27:40 · 4430 阅读 · 1 评论 -
自然语言处理之分词、命名主体识别、词性、语法分析-stanfordcorenlp-NER(二)
转载请注明出处:https://blog.youkuaiyun.com/HHTNAN在前面我们介绍了Stanford CoreNLP,自然语言处理之命名实体识别-tanfordcorenlp-NER(一)功能列表工具以及对各种语言的支持如下表(英文和中文支持的最好),分别对应:分词,断句,定词性,词元化,分辨命名实体,语法分析,情感分析,同义词分辨等。Annotatorarzhenfrdees...原创 2018-12-18 14:20:32 · 4798 阅读 · 3 评论 -
DeepWalk模型的简介与优缺点
1、DeepWalk[DeepWalk] DeepWalk- Online Learning of Social Representations (SBU 2014)word2vec是基于序列进行embedding;但是,实际上实体之间的关系越来越复杂化、网络化。这个时候sequence embedding------>graph embedding。图的定义:G=(V,E),Evv...原创 2019-09-18 10:50:26 · 4969 阅读 · 0 评论 -
nlp模型-bert从入门到精通(二)
命名实体识别首先下载相应bert 模块pip install bert-base==0.0.9 -i https://pypi.python.org/simple也可参考官网处理安装验证原创 2019-09-11 16:58:27 · 1859 阅读 · 0 评论 -
nlp模型-bert从入门到精通(一)
文章目录基础资料准备从0到1了解模型的优缺点BERT这个模型与其它两个不同的是:BERT模型具有以下两个特点:模型的输入参考资料:在说内容之前先把,bert基本资料准备一下基础资料准备tensorflow版:点击传送门pytorch版(注意这是一个第三方团队实现的):点击传送门论文:点击传送门从0到1了解模型的优缺点从现在的大趋势来看,使用某种模型预训练一个语言模型看起来是一种比较靠...原创 2019-09-11 15:18:26 · 4010 阅读 · 0 评论