文本块与树的转换技巧
在自然语言处理中,对文本块和树进行转换是一项重要的技术,它可以帮助我们进行语法修正、短语重排以及解析树的修改和扁平化等操作。下面将详细介绍几种常见的转换方法。
过滤句子中的无意义单词
在辨别短语的含义时,许多常用单词其实是无意义的。例如,在 “the movie was terrible” 这个短语中,“movie” 和 “terrible” 是最重要的单词,而 “the” 和 “was” 几乎没有作用。去掉这些无意义的单词,如 “movie terrible” 或 “terrible movie”,表达的情感是相同的。
准备工作
首先,我们需要确定哪些词性标签是有意义的,哪些是无意义的。通过查看树库语料库中的停用词,得到以下无意义单词和标签的表格:
| Word | Tag |
| ---- | ---- |
| a | DT |
| all | PDT |
| an | DT |
| and | CC |
| or | CC |
| that | WDT |
| the | DT |
除了 “CC” 标签外,其他标签都以 “DT” 结尾。这意味着我们可以通过查看标签的后缀来过滤无意义的单词。
操作步骤
在 transforms.py 中有一个名为 filter_insignificant() 的函数,它接受一个文本块(应该是一个带标签的单词列表),并返回一个不包含无意义带标签单词的新文本块。默认情况下,它会过滤掉所有以
超级会员免费看
订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



