神经网络
文章平均质量分 91
小牛壮士
人工智能学习笔记,供参考
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Transformer 自注意力机制
摘要:本文介绍了注意力机制及其实现过程。注意力机制通过Query、Key、Value三个向量模拟人类注意力,使模型能聚焦重要信息。文章详细讲解了单层注意力机制的计算步骤,包括词嵌入、线性变换、注意力得分计算和加权求和。随后扩展到多头注意力机制,通过并行多个注意力头从不同角度捕捉信息特征,最后拼接输出并进行线性微调。文中提供了完整的PyTorch实现代码,展示了注意力机制如何动态调整词向量表示,使模型能更灵活地处理序列数据。原创 2025-08-15 09:06:01 · 790 阅读 · 0 评论 -
Transformer网络结构解析
本文介绍了Transformer模型的核心架构及其关键组件。首先解释了Transformer在NLP领域的重要地位,作为BERT、GPT等大模型的基础。重点阐述了位置编码的必要性及其计算方法,层归一化技术的作用,以及编码器的核心模块组成。详细分析了掩蔽多头自注意力机制在文本生成任务中的工作原理,说明其如何通过掩码实现自回归预测。最后概述了解码器如何结合编码器信息进行序列生成。全文系统性地解析了Transformer模型的运作机制,为理解现代大语言模型提供了基础框架。原创 2025-08-14 19:06:33 · 717 阅读 · 0 评论 -
经典神经网络之LetNet
经典神经网络之LetNet原创 2025-07-23 09:23:20 · 589 阅读 · 0 评论 -
卷积神经网络(CNN)原理
本文介绍了卷积神经网络(CNN)的基本原理和结构。CNN由卷积层、激活函数、池化层和全连接层组成,具有局部连接、权重共享和池化三大特性。文章详细讲解了卷积层的工作机制、超参数设置和特征图尺寸计算,以及池化层的作用和类型(最大池化和平均池化)。最后以LeNet为例,给出了一个简单CNN的实现代码,展示了网络各层的参数设置和输出形状。CNN通过这种层级结构能够有效提取图像特征,是计算机视觉领域的重要模型。原创 2025-07-21 19:56:53 · 875 阅读 · 0 评论 -
全连接神经网络、不同激活函数和梯度下降法的区别、神经网络批量标准化
机器学习精髓:首先由前向传播计算出预测值,在由预测值经过梯度下降来调整模型参数,从而降低损失函数的误差原创 2025-07-19 17:01:01 · 776 阅读 · 0 评论
分享