jieba分词、关键词提取、词性标注

最新推荐文章于 2023-03-21 08:16:42 发布

转载最新推荐文章于 2023-03-21 08:16:42 发布 · 1.7k 阅读

本文介绍使用结巴分词进行中文文本的分词及关键词提取的方法。通过具体实例展示了如何设置停用词并提取带有词性和权重的关键词。

分词/关键词提取

seg = jieba.cut(content)  
        jieba.analyse.set_stop_words('stopword.txt')  
        keyWord = jieba.analyse.extract_tags(  
            '|'.join(seg), topK=20, withWeight=True, allowPOS=())

词性标注

>>> import jieba.posseg as pseg
>>> words =pseg.cut("我爱北京天安门")
>>> for w in words:
...    print(w.word,w.flag)
...
我 r
爱 v
北京 ns
天安门 ns

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Relite

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

中文自然语言处理--jieba 进行命名实体识别和提取

糯米君的博客

03-30

7247

通过简单的 jieba 分词然后根据词性获取实体对象 import jieba import jieba.analyse import jieba.posseg as posg # 使用 jieba 进行词性切分，allowPOS 指定允许的词性，这里选择名词 n 和地名 ns sentence = u'''上线三年就成功上市,拼多多上演了互联网企业的上市奇迹,却也放大平台上存在的诸多问题，拼多多在美国上市。''' kw = jieba.analyse.extract_tags(sentence, top

python jieba分词

weixin_38987362的博客

06-09

838

jieba “结巴”中文分词：做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word segmentation module. Scroll down for English documentation....

参与评论您还未登录，请先登录后发表或查看评论

Jieba中文分词 (二) ——词性标注与关键词提取

吉姆0818

04-16

3762

jieba分词上一篇jieba中文分词（一）分词与自定义字典已介绍了jieba中文分词安装，分词原理，分词方法，自定义字典，添加字典等多种常用分词方法。本篇将继续介绍jieba分词关键词提...

基于分词（jieba）的名词性短语识别

weixin_48456383的博客

02-16

670

自然语言处理名词性短语识别代码

jieba分词词性标注.py

11-20

将需要分词进行词性标注的句子存放在corpus文本文件（自建）中，最好是每句话存为一行。注：corpus文件需放在代码所在文件夹里。运行代码，自动生成一个outcome文本文件，分词词性标注结果就在此文本里。

结巴分词（支持词性标注）

12-17

结巴分词早期版本。 * 结巴分词(java版) jieba-analysis 首先感谢jieba分词原作者[[https://github.com/fxsjy][fxsjy]]，没有他的无私贡献，我们也不会结识到结巴分词，更不会有现在的java版本。结巴分词的原始版本为python编写，目前该项目在github上的关注量为170，打星727次（最新的数据以原仓库为准），Fork238次，可以说已经有一定的用户群。结巴分词(java版)只保留的原项目针对搜索引擎分词的功能(cut_for_index、cut_for_search)，词性标注，关键词提取没有实现(今后如用到，可以考虑实现)。 * 简介 ** 支持分词模式 - Search模式，用于对用户查询词分词 - Index模式，用于对索引文档分词 ** 特性 - 支持多种分词模式 - 全角统一转成半角 - 用户词典功能 - conf 目录有整理的搜狗细胞词库 - 支持词性标注(感谢 [[https://github.com/linkerlin][@linkerlin]] 的贡献) * 如何获取 - 当前稳定版本 #+BEGIN_SRC xml com.huaban jieba-analysis 0.0.2 #+END_SRC - 当前快照版本 - 支持词性标注 [[https://github.com/huaban/jieba-analysis/pull/4][#4]] - 修复以'-'连接词分词错误问题 [[https://github.com/huaban/jieba-analysis/issues/3][#3]] #+BEGIN_SRC xml com.huaban jieba-analysis 1.0.0-SNAPSHOT #+END_SRC * 如何使用 - Demo #+BEGIN_SRC java @Test public void testDemo() { JiebaSegmenter segmenter = new JiebaSegmenter(); String[] sentences = new String[] {"这是一个伸手不见五指的黑夜。我叫孙悟空，我爱北京，我爱Python和C++。", "我不喜欢日本和服。", "雷猴回归人间。", "工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作", "结果婚的和尚未结过婚的"}; for (String sentence : sentences) { System.out.println(segmenter.process(sentence, SegMode.INDEX).toString()); } } #+END_SRC * 算法(wiki补充...) - [ ] 基于 =trie= 树结构实现高效词图扫描 - [ ] 生成所有切词可能的有向无环图 =DAG= - [ ] 采用动态规划算法计算最佳切词组合 - [ ] 基于 =HMM= 模型，采用 =Viterbi= (维特比)算法实现未登录词识别 * 性能评估 - 测试机配置 #+BEGIN_SRC screen Processor 2 Intel(R) Pentium(R) CPU G620 @ 2.60GHz Memory：8GB 分词测试时机器开了许多应用(eclipse、emacs、chrome...)，可能会影响到测试速度 #+END_SRC - [[src/test/resources/test.txt][测试文本]] - 测试结果(单线程，对测试文本逐行分词，并循环调用上万次) #+BEGIN_SRC screen 循环调用一万次第一次测试结果： time elapsed:12373, rate:2486.986533kb/s, words:917319.94/s 第二次测试结果： time elapsed:12284, rate:2505.005241kb/s, words:923966.10/s 第三次测试结果： time elapsed:12336, rate:2494.445880kb/s, words:920071.30/s 循环调用2万次第一次测试结果： time elapsed:22237, rate:2767.593144kb/s, words:1020821.12/s 第二次测试结果： time elapsed:22435, rate:2743.167762kb/s, words:1011811.87/s 第三次测试结果： time elapsed:22102, rate:2784.497726kb/s, words:1027056.34/s 统计结果:词典加载时间1.8s左右，分词效率每秒2Mb多，近100万词。 2 Processor Intel(R) Core(TM) i3-2100 CPU @ 3.10GHz 12G 测试效果 time elapsed:19597, rate:3140.428063kb/s, words:1158340.52/s time elapsed:20122, rate:3058.491639kb/s, words:1128118.44/s #+END_SRC

简明 jieba 中文分词教程

GavinKai

03-21

1983

【全模式】：人生/ 易/ 老天/ 難/ 老/ / / 歲/ 歲/ 重/ 陽/ / / 今/ 又/ 重/ 陽/ / / 戰/ 地/ 黃/ 花/ 分外/ 香/ / / 壹年/ 壹/ 度/ 秋/ 風/ 勁/ / / 不似/ 春光/ / / 勝/ 似/ 春光/ / / 寥廓/ 江天/ 萬/ 裏/ 霜/ /目前在建吉林欧亚城市商业综合体项目。【搜索引擎模式】：他/ 毕业/ 于/ 上海/ 交通/ 大学/ 上海交通大学/ 机电/ 系/ ，/ 后来/ 在/ 一机部/ 上海/ 电器/ 科学/ 研究/ 研究所/ 工作。

精选资源

jieba 中文分词服务 Go语言版.zip

04-01

jieba不仅支持精确模式、全模式和搜索引擎模式等多种分词方式，还具备词性标注、关键词提取等扩展功能。转换jieba到Go语言版，意味着我们需要实现一个与原版jieba相似功能的Go库。Go语言以其简洁的语法、高效的...

精选资源

jieba分词详解和实践

01-20

总之，jieba分词是一个强大且灵活的工具，它结合了精确的词典分词与高效的TF-IDF关键词提取，为中文文本的处理提供了便利。无论是学术研究还是商业应用，jieba都能帮助开发者高效地处理中文数据，挖掘文本中的隐藏...

Lowpoly风街霸角色布兰卡（Blanka）Blender源文件

11-03

Lowpoly风街霸角色布兰卡（Blanka）Blender源文件老王的原创教程见《手把手带你Godot游戏开发第二弹】名场面临摹之街霸3D》 https://orzgame.blog.youkuaiyun.com/article/details/109402316

Arcade Game - 经典游戏 - 街霸2（降龙版）

热门推荐

lty_sky的专栏

04-16

2万+

目录 0 引言 1 分词 1.1 全模式和精确模式 1.2 搜索引擎模式 1.3 HMM 模型 2 繁体字分词 3 添加自定义词典 3.1 载入词典 3.2 调整词典 4 关键词提取 4.1 基于 TF-IDF 算法的关键词提取 4.2 基于 TextRank 算法的关键词提取 4.3 自定义语料库 5 词性标注 6 并行分词 7 返回词语在原文的起止位置 ...

python中的jieba分词保留给定词汇

CoAAColA的博客

06-11

3368

之前在做python的词云作业时，希望保留一些特定的词汇，但在网上没有找到方法，今天在上python课的时候老师给出了解答：首先，调用jieba.load_userdict(文件名)，加载需要保留的词汇，文件内容是需要保留的词汇，然后使用jieba.lcut(text)即可对给定的文本进行分析，即可得到结果。代码： def cut_by_custom_dict(text=None): jieba.load_userdict('../data/user_dict.txt') ret

文本分类（1）——分词&去停用词&取名词

_年_

01-16

5529

https://blog.youkuaiyun.com/han_xiaoyang/article/details/50629608 真的是看的我神志模糊，方法多，弄不清都是干什么的。。个人理解TF-IDF和CHI就相当于对词袋模型的一种改进，不是单纯的算出现次数那么贝叶斯是怎么实现TF-IDF这些么？？毕竟他不是概率啊。。 001 常见词向量表达 https://blog.youkuaiyun.com/sina...

自然语言处理2 -- jieba分词用法及原理

hwaust2020的博客

05-17

1210

文章目录1 概述2 jieba分词用法2.1 分词2.2 添加自定义词典2.3 调整词典2.4 关键词提取2.5 词性标注2.6 并行分词2.7 Tokenize：返回词语在原文的起止位置2.7 Tokenize：返回词语在原文的起止位置2.8 延迟加载机制3 jieba分词源码结构4 jieba分词原理分析4.1 初始化4.2. 切分短语4.3 构建DAG4.4 构建节点最大路径概率，以及结束位置4.5 构建切分组合4.6 HMM新词处理4.7 返回分词结果5 总结转载来源：https://blog.c

结巴分词5--关键词抽取

weixin_33972649的博客

12-14

2081

作者：zhbzz2007 出处：http://www.cnblogs.com/zhbzz2007 欢迎转载，也请保留这段声明。谢谢！ 1 简介 关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来。这个可以追溯到文献检索初期，当时还不支持全文搜索的时候，关键词就可以作为搜索这篇论文的词语。因此，目前依然可以在论文中看到关键词这一项。除了这些，关键词还可以在文本聚类、分类、自动摘要等领域...

汉语词性对照表[北大标准/中科院标准]

爱飞的蒲公英

07-07

3805

词性编码词性名称注解 Ag 形语素形容词性语素。形容词代码为 a，语素代码ｇ前面置以A。 a 形容词取英语形容词 adjective的第1个字母。 ad 副形词直接作状语的形容词。形容词代码 a和副词代码d并在一起。 an

怀旧经典少年街霸游戏体验

《少年街霸游戏程序》这一标题直指的是一款经典的电子游戏——《少年街霸》。这款在标题中提及的游戏是指Capcom公司在1990年代初期推出的街霸系列游戏的一个版本，它以角色年龄普遍年轻化为特点，与传统的《街霸》...