自然语言处理中的特征工程与算法
1. n-gram 模型
1.1 n-gram 概念
如果理解了二元组(bigram)重叠配对的概念,那么三元组(trigram)就更容易理解了。三元组是二元组的扩展。以字符或单词为基础,从第一个元素开始,考虑接下来的 n 个元素(n 为 2 时是二元组,n 为 3 时是三元组),并且采用重叠序列。例如,对于字符序列,第一个二元组是“AG”,下一个是“GC”;对于单词序列,“this, is, a”是一个三元组,下一个是“is, a, pen”,其中“is”是重叠的。这种重叠序列有助于存储上下文信息,但如果 n 值较大(如五元组、六元组),虽然能存储更多上下文,但需要更多的空间和时间来处理数据集。
1.2 n-gram 实践
可以使用 nltk 库实现 n-gram,代码可参考 GitHub 链接 。
1.3 n-gram 应用
- 抄袭检测工具 :可用于提取被复制的模式,许多抄袭检测工具以此提供基本功能。
- 计算生物学 :用于识别各种 DNA 模式,以发现异常的 DNA 模式,帮助生物学家判断一个人可能患有的遗传疾病。
2. 词袋模型(Bag of Words,BOW)
2.1 BOW 理解
词袋模型简化了自然语言处理中的文本表示。在该模型中,文本数据被表示为
NLP特征工程与核心算法解析
超级会员免费看
订阅专栏 解锁全文

4110

被折叠的 条评论
为什么被折叠?



