自然语言处理1

本文探讨了在Python中处理文本的多种方法,包括词汇链表的定义与操作,如分片、追加元素等,同时介绍了使用set()函数进行数据处理时的常见问题及解决策略。此外,还分享了文本分析的实用技巧,如词汇频率统计、随机文本生成等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

今天遇到一个小问题:我用定义了一个词汇链表,直接用链表进行分片可以,但调用set()函数后返回给你个变量,用这个变量进行分片时就会报错,但我书上的实例却可以输出结果。如:.sent=[’’,’’,’’,…‘’]
t=set(sent)
为什么sent可以分片而t不可以分片?看到的小伙伴可以解答一下。

’代表操作对象
1.使用concordance(‘
’)搜索文中的单词
2.使用alt+p获取之前输入的命令
3.similar(‘’)查找与词相似的词
4.dispersion_plot([’
’,’’])词汇分布
5.generate ()随机获取一段文本
6.from future import division
len(text3)/len(set(text3))
每个词在文中平均出现的次数
7.text.count(’
’)某个词在文中出现的次数
8.100 text.count(’’)/len(text)某个词在文中占的比列
9.两个链表可以相加构成新的链表
10.sent.append(’’)链表追加某个元素
11.text[index]返回索引位置的单词
12.text.index(’
’)返回词汇的索引
13.text[index1:index2]抽取索引1到索引2之间的文本片段
14.字符串可以进行乘法加法
15.’ ‘.join([’’,’’,…,’’])将链表转化为字符串
'
,,,’.split()将字符串分割成链表
16.查看文中低频单词(出现一次)
fdist=FreqDist(text)
fdist(’*’)查看单词出现了多少次
fdist.hapaxes()返回所有的低频词汇

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值