jieba分词 词性标注
学无止境还得学
技术更新很快,只有自己不断学习,不断进步,才能与时俱进。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
2020-08-24
关键词摘取关键词提取就是从文本里面把跟这篇文章意义最相关的一些词语抽取出来。这个可以追溯到文献检索初期,关键词是为了文献标引工作,从报告、论文中选取出来用以表示全文主题内容信息的单词或术语,在现在的报告和论文中,我们依然可以看到关键词这一项。因此,关键词在文献检索、自动文摘、文本聚类/分类等方面有着重要的应用,它不仅是进行这些工作不可或缺的基础和前提,也是互联网上信息建库的一项重要工作本文介绍的是在文本中获取关键词的俩种方法1.TF-IDF2.Text-Rank下面介绍一些关于关键词抽取的常用和经原创 2020-08-24 17:33:35 · 441 阅读 · 0 评论 -
检索式聊天机器人,客服系统
检索式聊天机器人,客服系统操作流程:原始数据(原始的正确问题对数据):question1, answer1question2, answer2question3, answer3question4, answer4question5, answer5question6, answer6question7, answer7…操作步骤如下 :0. 使用question数据构建训练文本相似度度量的训练数据,并训练、部署模型。1. 使用训练好的文本相似度度量模型,对所有的question提原创 2020-08-19 17:13:57 · 580 阅读 · 0 评论 -
2020-08-18
python+jieba+tfidf算法 文本相似度jieba是python第三方库,用于自然语言处理,对文本进行分词,当然也有其他的分词库。gensim库,利用TFIDF算法来进行文本相似度计算,通过利用gensim库的corpora,models,similarities处理后续。基本思路:jieba进行分词,整理为指定格式->gensim库将要对比的文档通过doc2bow转化为稀疏向量->再通过models中的tf-idf将语料库进行处理->特征值和稀疏矩阵相似度建立索引-&g原创 2020-08-18 17:19:40 · 168 阅读 · 1 评论 -
2020-08-12
NLP — 词性标注#本节我们将介绍另外一个重要的知识点即词性标注,同样的在宗老师的书里都有详细的讲解,这里就简单的讲解一下,那么我们下面就开始:Part-of-speech,是重要的基础性工作,为后续的句法分析等进一步工作提供基础。分词,命名实体识别,词性标注并称汉语词法分析“三姐妹”。词性标注即在给定的句子中判定每个词最合适的词性标记。词性标注的正确与否将会直接影响到后续的句法分析、语义分析,是中文信息处理的基础性课题之一。常用的词性标注模型有 N 元模型、隐马尔科夫模型、最大熵模型、基于决策树的原创 2020-08-12 09:30:56 · 441 阅读 · 0 评论 -
2020-08-10
python文本相似度计算1.分词、去停用词2.词袋模型向量化文本3.TF-IDF模型向量化文本4.LSI模型向量化文本5.计算相似度**词袋模型最简单的表示方法是词袋模型。把一篇文本想象成一个个词构成的,所有词放入一个袋子里,没有先后顺序、没有语义。例如:John likes to watch movies. Mary likes too.John also likes to watch football games.这两个句子,可以构建出一个词典,key为上文出现过的词,value原创 2020-08-10 16:19:14 · 244 阅读 · 0 评论 -
python中正则表达式与jieba分词的使用
这次和大家分享一下主要使用正则表达式匹配文本信息内容的案例,其中还用到了jieba分词词性标注技术,和一些对文本的切片工作。有兴趣学习的可以详细看看,具体内容,应该有点帮助,这是本人一个一个代码敲出来的1000多行代码。# coding:utf-8import osimport docximport pickleimport timeimport datetimeimport reimport sysimport jieba.posseg as psgimport numpy as np原创 2021-01-07 16:04:03 · 1080 阅读 · 2 评论 -
爬虫之 静态页面和动态页面
***## 标题*爬虫有静态页面和动态页面,这里先讲解静态的选取,先看网页的源代码里面是否有需要爬取的关键词,有就是静态页面直接调用cookile get得到数据 **关于python的爬虫的一些内容与爬安居客与58同城的租房信息,选取一些关键词,进行爬取,代码如下:import requests,pymysqlfrom lxml import etreeimport time#爬取内容一下七个信息#标题 户型 面积 区域 小区 交通 价格#龥 0 replace('龥,驋,餼,鸺,麣,龤,原创 2020-08-06 15:17:35 · 1095 阅读 · 1 评论
分享