自然语言处理与Python编程:从文本特征提取到语言理解
1. 文本特征词提取
在处理文本时,我们常常需要找到能够表征文本的特征词。以某些文本为例,长词往往能反映文本的重点。如在特定文本中,长词体现了国家相关的焦点,像 “constitutionally”“transcontinental” ;而另一些文本中的长词则反映出非正式的内容,如 “boooooooooooglyyyyyy” 和 “yuuuuuuuuuuuummmmmmmmmmmm” 。
不过,这些非常长的词通常是唯一出现的(即单例词),或许寻找频繁出现的长词会更有意义。这样做可以排除频繁出现的短词(如 “the” )和不常出现的长词(如 “antiphilosophists” )。以下是从聊天语料库中提取长度超过 7 个字符且出现次数超过 7 次的所有单词的代码:
fdist5 = FreqDist(text5)
sorted([w for w in set(text5) if len(w) > 7 and fdist5[w] > 7])
运行结果如下:
['#14 - 19teens', '#talkcity_adults', '((((((((((', '........', 'Question',
'actually', 'anything', 'computer', 'cute.-ass', 'everyone', 'football',
'innocent', 'listening', 'remember', 'seriously', 'something', 't
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



