深度学习在自然语言处理中的应用与发展
1. 深度学习简介
深度学习近年来在自然语言处理和计算语言学领域迅速成为首选的机器学习方法。它涵盖了广泛的学习算法和模型,是统计机器学习方法和算法的一个子集,由许多非线性层堆叠而成的机器学习模型组成。
深度学习在自然语言处理领域的成功案例众多,包括解析、语音识别、机器翻译、问答系统和对话建模等。其能够学习语言单元(如单词和句子)的分布式表示,这一能力加速了它在自然语言处理中的应用。
2. 基本设置
深度学习与其他统计机器学习方法类似,通常从一个数据集开始:
[D = {(x_1, y_1), \ldots, (x_N, y_N)}]
这个数据集包含 (N) 个输入 - 输出对,常被划分为训练集、验证集和测试集。训练集用于训练模型,验证集用于寻找合适的超参数,测试集用于评估模型的泛化性能。
在深度学习中,监督学习通常被建模为一个神经网络,用于近似给定输入下输出空间的条件分布:
[p(y|x) = f_{\theta}(x)]
其中 (\theta) 是网络的参数集。训练神经网络等价于最大化训练集的对数概率:
[\arg\max_{\theta} L(\theta) = \frac{1}{N} \sum_{n = 1}^{N} \log p(y_n|x_n) = \frac{1}{N} \sum_{n = 1}^{N} \log f_{\theta}(x_n)]
分类是自然语言处理中许多现代神经网络的重要基础任务。在分类任务中,神经网络输出给定输入下每个类别的概率:
[p(y|x) = \begin{bmatrix} p(y
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



