基于机器学习的文本增强技术探索
1. 文本增强概述
文本增强是一种为自然语言处理(NLP)模型生成额外训练数据的技术。尽管乍一看,向文本中注入错误的文本增强技术似乎违反直觉且存在问题,但基于卷积神经网络(CNNs)或循环神经网络(RNNs)的深度学习(DL)能够识别模式,而不受一些拼写错误或同义词替换的影响。许多研究表明,文本增强有助于提高预测或预报的准确性。
有多种文本增强库,如 Nlpaug、NLTK、Gensim、Textblob 和 Augly 等,它们提供了额外的文本增强方法。此外,新发表的学术论文也是发现新文本增强技术的绝佳来源。
2. 机器学习与传统库文本增强的区别
2.1 传统库文本增强
图像、文本或音频的增强库遵循传统的编程方法,算法中包含结构化数据、循环和条件语句。例如,实现 _print_aug_reserved() 方法的伪代码如下:
# define synonym words, pseudo-code
reserved = [['happy', 'joyful', 'cheerful'],
['sad','sorrowful','regretful']]
# substitute the word with its synonym, pseudo-code
for i, word in (input_text):
for set_word in (reserved):
for i, syn in set_word:
if (
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



