10、基于词汇的文本特征分析与应用

基于词汇的文本特征分析与应用

1. N - grams特征

在文本分析中,使用基本词形特征集虽能找出我们感兴趣的典故,但它的排名可能低于一些不太相关的结果。这部分是因为它是由常见词汇组成的较长表达。解决这个问题的方法有两种,一是调整评分,二是使用多词特征,N - grams就是一种非常流行的特征集。

1.1 N - grams的灵活性

N - grams的灵活性体现在可以根据文本条件选择单词数量(n)和相邻n - grams之间的重叠程度(“shingling”)。小的n值能对简短引用敏感,大的n值可用于识别抄袭和大规模复用。紧密重叠的shingling能聚焦连贯、孤立的段落,而较大的间隔不仅能容忍更大的刻意修改,还能处理噪声数据。

1.2 双元语法(bigrams)的应用

这里我们使用由重叠的双元语法组成的简单特征,即连续两个单词的重叠字符串。自定义函数 add.col.ngrams() 可使用给定文本的标记表提取和索引n - grams。为方便操作,使用包装函数 tess.ordered() 来组合链接和评分步骤。

> add.col.ngrams(doc.got)
Calculating 2903 feature tallies
Converting to frequencies
> add.col.ngrams(doc.twit)
Calculating 20270 feature tallies
Converting to frequencies
> tess.ordered
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值