利用卷积神经网络在文本中寻找知识核心
1. CNN在NLP中的潜力
卷积神经网络(CNNs)在计算机视觉领域广受欢迎,但在自然语言处理(NLP)中却未得到足够重视。实际上,CNNs在NLP中具有巨大潜力,它能通过检测词序列中的模式以及词与相邻词的关系,帮助机器理解词语。
与大科技公司青睐的需要大量数据和计算资源的模型不同,CNNs效率极高,无需海量数据和强大计算能力。而且,目前很难找到为NLP正确配置和调优的CNNs实现。
与当下热门的变压器模型(如GPT - J、GPT - Neo、PaLM等)相比,CNNs参数少得多(小于200k参数,而PaLM有540B参数),能构建出更好、更快、更便宜的NLP模型,无需昂贵的计算和训练数据。
2. 词序列中的模式
2.1 词序的重要性
在之前处理短短语或单个词时,单个词往往能发挥很好的作用,词序影响不大。但当要表达完整思想时,就需要使用更长的词序列,并且词序至关重要。
2.2 卷积的应用
在NLP之前,人类就使用卷积来检测序列中的模式。在NLP中,卷积用于检测跨越多个词甚至多个句子的模式。最初的卷积是手工制作的,后来随着计算机的发明,研究人员和数学家会为每个问题手工编写匹配的数学公式。常见的图像处理手工核包括拉普拉斯、索贝尔和高斯滤波器,在NLP类似的数字信号处理中,也可以从基本原理设计低通和高通卷积滤波器。
然而,手工制作滤波器很繁琐,现在我们使用统计和神经网络自动学习图像和文本中的模式。早期的线性全连接网络(多层感知器)存在过度泛化问题,无法识别词模式在句子中的位置变化,不具有尺度和翻译不变性。而大卫·鲁
超级会员免费看
订阅专栏 解锁全文
1549

被折叠的 条评论
为什么被折叠?



