4、自然语言处理与Python编程:从文本特征提取到语言理解

自然语言处理与Python编程:从文本特征提取到语言理解

1. 文本特征词提取

在处理文本时,我们常常需要找到能够表征文本的特征词。以某些文本为例,长词往往能反映文本的重点。如在特定文本中,长词体现了国家相关的焦点,像 “constitutionally”“transcontinental” ;而另一些文本中的长词则反映出非正式的内容,如 “boooooooooooglyyyyyy” 和 “yuuuuuuuuuuuummmmmmmmmmmm” 。

不过,这些非常长的词通常是唯一出现的(即单例词),或许寻找频繁出现的长词会更有意义。这样做可以排除频繁出现的短词(如 “the” )和不常出现的长词(如 “antiphilosophists” )。以下是从聊天语料库中提取长度超过 7 个字符且出现次数超过 7 次的所有单词的代码:

fdist5 = FreqDist(text5)
sorted([w for w in set(text5) if len(w) > 7 and fdist5[w] > 7])

运行结果如下:

['#14 - 19teens', '#talkcity_adults', '((((((((((', '........', 'Question',
'actually', 'anything', 'computer', 'cute.-ass', 'everyone', 'football',
'innocent', 'listening', 'remember', 'seriously', 'something', 't
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值