- 博客(6)
- 收藏
- 关注
原创 Transformer架构深度研究报告(三、再谈解码层之Beam Search与终止条件)
束搜索是一种广泛应用于自回归生成模型的搜索算法 ,旨在解决序列生成任务中计算效率与生成质量之间的平衡问题。在自然语言处理领域,如机器翻译、文本生成、语音识别等任务中,束搜索发挥着关键作用。其核心思想是在每一步生成时,不再像贪心搜索那样仅保留一个概率最高的候选,而是同时保留多个(束宽 B 个)最有可能的候选序列。通过这种方式,束搜索能够在一定程度上避免陷入局部最优解,因为它考虑了多个可能的路径,增加了找到全局最优解的可能性。
2025-02-24 00:43:52
1143
原创 Transformer架构深度研究报告(二、分层原理)
我们选取了一个中英机器翻译的案例来深入探究 Transformer 在机器翻译任务中的表现。数据集采用了广泛应用于机器翻译研究的 WMT(Workshop on Machine Translation)数据集,该数据集包含来自各种来源的平行语料,涵盖了丰富的语言对和多样的文本内容,是评估机器翻译系统性能的重要资源。在本次实验中,我们使用的是其中的中英平行语料部分,这些语料经过了精心的收集和整理,包含了新闻、科技、文化等多个领域的文本,能够全面地测试模型在不同场景下的翻译能力。
2025-02-23 14:23:33
1180
原创 Transformer架构深度研究报告(一、编码解码层详解)
在人工智能快速发展的今天,Transformer 架构凭借其卓越的性能和创新的设计理念,成为了自然语言处理、计算机视觉等众多领域的核心技术。自 2017 年被提出以来,Transformer 架构在诸多任务中取得了显著的成果,彻底改变了序列数据处理的方式。它的核心创新 —— 自注意力机制,能够让模型在处理序列数据时,捕捉到长距离依赖关系,极大地提升了模型对上下文信息的理解能力。与传统的循环神经网络(RNN)和卷积神经网络(CNN)相比,Transformer 架构具有更高的并行性和计算效率,能够更好地处理大
2025-02-23 14:22:33
1277
原创 Transformer架构原理学习报告
在深度学习领域,Transformer 架构自 2017 年被提出以来,迅速成为了自然语言处理、计算机视觉等众多领域的核心技术。它打破了传统循环神经网络(RNN)和卷积神经网络(CNN)的局限性,以其独特的注意力机制,能够高效地处理长序列数据,捕捉数据中的长距离依赖关系。例如,在自然语言处理中的机器翻译任务里,Transformer 能够更好地理解源语言句子中各个词汇之间的复杂关系,从而实现更准确的翻译;在图像识别任务中,也能有效提取图像中不同区域的特征关联。研究 Transformer 架构原理对于深入理
2025-02-22 23:57:48
584
原创 卡尔曼滤波、最小二乘法、维纳滤波之我见
卡尔曼滤波、最小二乘法、维纳滤波之我见频域:最小二乘滤波、维纳滤波;时域:卡尔曼滤波。最小二乘滤波与维纳滤波均是对系统的频域特性进行估计,得到系统的传递函数。卡尔曼滤波对系统的描述,是基于状态空间的描述,即估计系统的内部状态量,进而对系统进行描述。从方法上讲,最小二乘寻找的是一种投影方法,可以把输出空间投影到输入空间张成的子空间上,并使误差最小(即高最小),关注误差的二范数最小维纳...
2019-10-24 00:04:53
4449
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅