基于词汇的文本特征分析与应用
1. N - grams特征
在文本分析中,使用基本词形特征集虽能找出我们感兴趣的典故,但它的排名可能低于一些不太相关的结果。这部分是因为它是由常见词汇组成的较长表达。解决这个问题的方法有两种,一是调整评分,二是使用多词特征,N - grams就是一种非常流行的特征集。
1.1 N - grams的灵活性
N - grams的灵活性体现在可以根据文本条件选择单词数量(n)和相邻n - grams之间的重叠程度(“shingling”)。小的n值能对简短引用敏感,大的n值可用于识别抄袭和大规模复用。紧密重叠的shingling能聚焦连贯、孤立的段落,而较大的间隔不仅能容忍更大的刻意修改,还能处理噪声数据。
1.2 双元语法(bigrams)的应用
这里我们使用由重叠的双元语法组成的简单特征,即连续两个单词的重叠字符串。自定义函数 add.col.ngrams() 可使用给定文本的标记表提取和索引n - grams。为方便操作,使用包装函数 tess.ordered() 来组合链接和评分步骤。
> add.col.ngrams(doc.got)
Calculating 2903 feature tallies
Converting to frequencies
> add.col.ngrams(doc.twit)
Calculating 20270 feature tallies
Converting to frequencies
> tess.ordered
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



