14、文本块与树的转换技巧

文本块与树的转换技巧

在自然语言处理中,对文本块和树进行转换是一项重要的技术,它可以帮助我们进行语法修正、短语重排以及解析树的修改和扁平化等操作。下面将详细介绍几种常见的转换方法。

过滤句子中的无意义单词

在辨别短语的含义时,许多常用单词其实是无意义的。例如,在 “the movie was terrible” 这个短语中,“movie” 和 “terrible” 是最重要的单词,而 “the” 和 “was” 几乎没有作用。去掉这些无意义的单词,如 “movie terrible” 或 “terrible movie”,表达的情感是相同的。

准备工作

首先,我们需要确定哪些词性标签是有意义的,哪些是无意义的。通过查看树库语料库中的停用词,得到以下无意义单词和标签的表格:
| Word | Tag |
| ---- | ---- |
| a | DT |
| all | PDT |
| an | DT |
| and | CC |
| or | CC |
| that | WDT |
| the | DT |

除了 “CC” 标签外,其他标签都以 “DT” 结尾。这意味着我们可以通过查看标签的后缀来过滤无意义的单词。

操作步骤

transforms.py 中有一个名为 filter_insignificant() 的函数,它接受一个文本块(应该是一个带标签的单词列表),并返回一个不包含无意义带标签单词的新文本块。默认情况下,它会过滤掉所有以

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值