jieba分词相关、join合并列表元素

最新推荐文章于 2024-03-26 18:08:29 发布

dream6104

最新推荐文章于 2024-03-26 18:08:29 发布

阅读量3.3k

点赞数 6

CC 4.0 BY-SA版权

分类专栏：机器学习

本文链接：https://blog.youkuaiyun.com/dream6104/article/details/89256058

机器学习专栏收录该内容

6 篇文章

订阅专栏

本文通过一个简单的实例，展示了如何使用jieba分词库进行中文文本的分词处理。从导入库开始，逐步介绍了分词操作的过程，包括生成器的使用、分词结果的保存及合并等关键步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >


import jieba
str1="今天来到了天安门广场"
seg_list=jieba.cut(str1) #结果是个生成器，还不能直接使用
print("输出1",seg_list) 
z=[x for x in seg_list] #将分词的结果保存到列表中，可以看到元素是分好的词，列表长度即为分好的词的数量

print("输出2",z)
aa=z
print("输出3",aa)
xx=' '.join(aa)   #合并列表的元素，成为一个句子，但分好的词之间这里是用空格相连,若'+'.join(aa)则元素之间用+号连接
x=[]
x.append(xx)
print("输出4",x)


结果：

输出1 <generator object Tokenizer.cut at 0x00000126A7C67BF8>
输出2 ['今天', '来到', '了', '天安门广场']
输出3 ['今天', '来到', '了', '天安门广场']
输出4 ['今天 来到 了 天安门广场']

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

dream6104

关注关注

6
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

jieba分词以列表的形式添加自定义词库

weixin_43718786的博客

08-01

1770

简单记录如何在代码中以列表形式添加自定义词库

jieba分词

weixin_38495542的博客

01-07

1174

jieba分词的入门应用接上次对文本数据进行特征化，由于我上次用的是英文数据，英文句子单词与单词之间自带空格，所以 fit_transform（a）函数可以识别到一个个单词并将其提取为一个特征词存放在为列表里的一个字符串元素英文文本数据 from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer def countvec(): """ 对文本进行特征值化 :return: None

1 条评论您还未登录，请先登录后发表或查看评论

【python】jieba词性标注并列join

神创的博客

04-17

2650

----------------------------------------------------------------的-就-要求-我们-对于-一般-历史-的-叙述-，-比-通常-哲学史-家所-做-的-为-多- 。-我-还-发觉-这-一点-对于-一般-读者-未必-是-很-熟悉-的-那-几段-时期-，-尤其-必要-。-经院哲学-的-大-时代-乃是-十一-世纪-改革-的-产物-，-而-这些-...

合并txt文件，并使用jieba分词

a602232180的博客

06-18

1526

将目录下，各个类别文件内所有TXT文件分词、去除停用词后集合为一个TXT

jieba如何自行 split 或 join ?

qq_41835091的博客

12-27

878

目录jieba.suggest_freq()源码split关键运行过程解释注意：使用此函数也有可能分不开join关键运行过程解释jieba.add_word()&del_word()源码参考文献 jieba.suggest_freq() 源码 def suggest_freq(self, segment, tune=False): """ Suggest word frequency to force the characters in a word to be joined

jieba分词详解和实践

01-20

jieba 中文分词服务 Go语言版.zip

最新发布

04-01

《jieba 中文分词服务 Go语言版》在当今数字化时代，中文信息处理成为了一个不可或缺的领域，尤其是在自然语言处理（NLP）中，中文分词是基础性且至关重要的一步。jieba是一个广受欢迎的开源中文分词库，它为...

少年街霸游戏程序

10-29

《少年街霸》游戏，曾是无数玩家童年时期的一大记忆符号。这不仅仅是一款游戏，它还是一代人共同的青春记忆，装载着笑声和汗水。在如今电子游戏百花齐放的今天，我们再次回顾《少年街霸》，不仅是为了重拾那段美好，...

python --jieba 分词

weixin_62816287的博客

04-07

7697

jieba库是什么 jieba库中文分词第三方库，中文文本需要通过分词获得单个的词语。 jieba库的原理：利用中文字库，确定汉字之间的关联概率，汉字件概率大的组成词组，形成分词结果，还可以添加自定义的词组。 jieba库的使用 jieba库分词有3种 1.精确模式：一段文本精确地切分成若干个中文单词，若干个中文单词经过组合，精确还原原先地文本，不存在冗余单词。 2.全模式：一段文本种所有可能出现地词语都扫描出来，一段文本从不同地角度切分成不同地词语，分词后地信息组合会有冗余，不在是原来的文本。

Lowpoly风街霸角色布兰卡（Blanka）Blender源文件

11-03

Lowpoly风街霸角色布兰卡（Blanka）Blender源文件老王的原创教程见《手把手带你Godot游戏开发第二弹】名场面临摹之街霸3D》 https://orzgame.blog.youkuaiyun.com/article/details/109402316

jieba分词强制词语切分或合并

Yearning for the future

07-17

3077

jieba分词强制词语切分或合并 # jieba 强制将词语切分 s1 = "如果放到post中将出错" print(jieba.lcut(s1)) # ['如果', '放到', 'post', '中将', '出错'] jieba.suggest_freq(('中', '将'), True) print(jieba.lcut(s1)) # ['如果', '放到', 'post', '中', '将', '出错'] # jieba 强制将词语合并，还可以使用jieba.add_word(word

python7(文件，join方法，jieba，wordcloud词云绘制)

qq_53318060的博客

08-08

741

文章目录文件文件类型文件的打开和关闭文件文件类型所有文件采用两种方式进行展示：文本文件，二进制文件。文本文件：由单一特定编码组成的文件，如UTF-8编码。如txt文件，py文件。二进制文件：直接由比特0和1组成，没有统一字符编码。如png文件，avi文件。文件的打开和关闭 ...

用python的.jion()方法将jieba分词结果写入文件

weixin_45747396的博客

11-03

3059

python的.jion()方法，将各种数据类型转换为字符串 string.join() Python中有join()和os.path.join()两个函数，具体作用如下： join()：连接字符串数组。将字符串、元组、列表中的元素以指定的字符(分隔符)连接生成一个新的字符串 os.path.join()：将多个路径组合后返回语法： ‘sep’.join(seq) 参数说明 sep：分隔符。可以为空 seq：要连接的元素序列、字符串、元组、字典上面的语法即：以sep作为分隔符，将seq所有

python系列-jieba中文分词工具基本操作

weixin_45670987的博客

05-30

1522

一、jieba分词工具的介绍 jieba分词工具又叫做结巴分词，被誉为python最好的分词工具，安装很简单

python 结巴分词(jieba)学习

无限大地NLP_空木的专栏

10-26

3万+

源码下载的地址：https://github.com/fxsjy/jieba 演示地址：http://jiebademo.ap01.aws.af.cm/ 特点 1，支持三种分词模式： a,精确模式，试图将句子最精确地切开，适合文本分析； b,全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义； c,搜索引擎模式，在

基于python中jieba包的中文分词中详细使用（一）

热门推荐

让算法融入生活，改变生活！

05-06

7万+

基于python中jieba包的中文分词中详细使用（一） 01.前言 02.jieba的介绍 02.1 What 02.2特点 02.3安装与使用 02.4涉及到的算法 03.主要功能 03.01分词 03.02添加自定义词典 03.02调整词典 04.结束语基于python中jieba包的中文分词中详细使用（一） 01.前言之前的文章中也是用过一些jieba...

使用Jieba分词工具的不同应用

m0_61133560的博客

03-26

303

未加载自定义字典时使用精确切分来进行分词seg_list = jieba.cut('心灵感应般地蓦然回首，才能撞见那一低头的温柔；也最是那一低头的温柔，似一朵水莲花不胜凉风的娇羞；也最是那一抹娇羞，才能让两人携手共白首。')print('未加载自定义词典时的精确模式分词结果：\n', '/'.join(seg_list)) # 心灵感应/般地/蓦然回首/，/才能/撞见/那一/低头/的/温柔/；/也/最/是/那/一/低头/的/温柔/，/似/一朵/水/莲花/不胜/凉风/的/娇羞/；

【自然语言处理基础技能（NLP）】jieba中文文本处理

独守夕阳余晖

11-10

6970

1.基本分词函数与用法 # jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator，可以使用 for 循环来获得分词后得到的每一个词语(unicode) # # jieba.cut 方法接受三个输入参数: # # 需要分词的字符串 # cut_all 参数用来控制是否采用全模式 # HMM 参数用来控制是否使用 HMM 模型 # ...

jieba分词自定义词表简介

feng98ren的专栏

05-24

1万+

一、jieba分词增加自定义词表在使用jieba分词时经常会发现一些未登录词，因此增加领域词表就变得很重要，下面提供增加几种途径：1、领域权威词汇字典2、搜狗输入法领域词库、百度输入法领域词库3、jieba分词提供的其他词典：点我查看jieba分词提供的其他字典，点我查看jieba分词词性标记含义然后这...