4、自然语言处理与Python编程：从文本特征提取到语言理解-优快云博客

本文链接：https://blog.youkuaiyun.com/assembly8low/article/details/155044454

自然语言处理与Python编程：从文本特征提取到语言理解

1. 文本特征词提取

在处理文本时，我们常常需要找到能够表征文本的特征词。以某些文本为例，长词往往能反映文本的重点。如在特定文本中，长词体现了国家相关的焦点，像 “constitutionally”“transcontinental” ；而另一些文本中的长词则反映出非正式的内容，如 “boooooooooooglyyyyyy” 和 “yuuuuuuuuuuuummmmmmmmmmmm” 。

不过，这些非常长的词通常是唯一出现的（即单例词），或许寻找频繁出现的长词会更有意义。这样做可以排除频繁出现的短词（如 “the” ）和不常出现的长词（如 “antiphilosophists” ）。以下是从聊天语料库中提取长度超过 7 个字符且出现次数超过 7 次的所有单词的代码：

fdist5 = FreqDist(text5)
sorted([w for w in set(text5) if len(w) > 7 and fdist5[w] > 7])

运行结果如下：

['#14 - 19teens', '#talkcity_adults', '((((((((((', '........', 'Question',
'actually', 'anything', 'computer', 'cute.-ass', 'everyone', 'football',
'innocent', 'listening', 'remember', 'seriously', 'something', 't