- 博客(2)
- 收藏
- 关注
原创 注意力机制(极简教程):Transformer核心
注意力机制→ 解决信息选择问题自注意力机制→ 实现全局信息交互多头自注意力→ 捕获多样化关系模式多头掩码注意力→ 适配生成任务约束每一步改进都针对前一阶段的具体问题,最终形成了Transformer架构的核心。这个演进过程不仅是技术的进步,更体现了对序列建模本质问题的深入理解。从最初的"关注重要信息",到最终的"在约束条件下进行多维度全局建模",注意力机制的演进为现代自然语言处理奠定了坚实基础。
2025-08-27 20:41:28
637
原创 统计语言模型 (n元语言模型)
摘要:语言模型是自然语言处理的核心技术,用于计算句子概率和预测下一个词。统计语言模型通过条件概率链式法则计算句子概率,但面临数据稀疏问题。N-gram模型引入马尔可夫假设简化计算,将上下文限制为前n-1个词。通过最大似然估计从语料库统计N-gram概率,但零概率问题需采用平滑策略(如加一平滑)解决。语言模型在输入法、机器翻译等应用中发挥重要作用。
2025-07-31 21:27:04
615
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅