数据探索与可视化:自然语言处理中的关键步骤
1. 数据初步探索
在处理电影评论数据集时,我们可以从简单的测量开始,例如统计单词和二元组(bigrams)。二元组是指两个连续出现的单词,很多二元组是习语,像“New York”和“Star Trek”,它们的含义并非单个单词含义的简单组合;还有一些只是常见短语,如“real life”和“one day”。在电影评论语料库中,这些二元组的出现都很合理。
我们可以做一个练习,比较积极和消极电影评论中的二元组。此前在查看单字频率时,我们发现积极和消极评论中最常见的单词是相同的,那么最常见的二元组是否也是如此呢?
通过统计单词和二元组等简单测量方法,我们能对数据集有初步的了解。此外,还有一些有用的探索技术可用于测量和可视化数据集中文档之间的相似性。
2. 文档相似性测量
2.1 词袋模型(BoW)
我们可以使用一种简单的方法——词袋模型(Bag of Words,BoW)来测量文档之间的相似性。其基本思想是:如果两个文档包含更多相同的单词,那么它们就更相似。对于语料库中的每个文档和每个单词,我们会查看该单词是否出现在该文档中。两个文档共同拥有的单词越多,它们就越相似。
以下是计算电影评论语料库BoW的步骤:
1. 从语料库中获取最频繁出现的1000个单词,并将它们组成一个列表。列表中单词的数量是可以调整的,过长的列表会减慢后续处理速度,并且可能会包含一些提供信息较少的稀有单词。
2. 定义一个函数来收集文档中的单词,然后创建一个文档列表。
3. document_features() 函数会遍
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



