自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 2025神经网络与深度学习第四周总结

双编码器架构——图像编码器(ResNet/ViT)提取视觉特征,文本编码器(Transformer)提取语义特征,通过对比学习对齐模态空间。训练图像编码器(如ResNet/ViT)和文本编码器(Transformer),使匹配的图像-文本对在特征空间中接近,不匹配对远离。- 优势场景:大规模图像数据集(如JFT-300M、ImageNet-21K)下的高性能图像识别,尤其适合需要全局上下文的场景。- 输入处理:将图像分割为固定大小的Patch(如16×16),展平为向量后添加位置编码,模拟文本序列输入。

2025-05-28 19:48:37 759

原创 2025神经网络与深度学习第三周总结

反向传播时梯度随时间步指数衰减,导致模型难以捕捉长距离依赖(如“中国...说流利的...语言”中“中国”与“语言”的关联)。80类复杂场景图像,33万张图(20万标注),涵盖目标检测、实例分割等任务,是当前主流 benchmark。处理时序或序列数据(如文本、语音),当前输出依赖历史输入,典型模型包括RNN、LSTM、GRU。通过语言模型(如Skip-gram)在大规模文本中学习词向量,可用于下游任务(如情感分类)。映射词元到索引(如“the”→1,“movie”→19),处理未登录词(<unk>)。

2025-05-28 19:36:25 598

原创 2025神经网络与深度学习第二周总结

全连接网络对1000×1000图像的隐含层参数可达\(10^{12}\)量级,CNN通过局部连接(每个神经元仅连接上层少数神经元)和权值共享(同一卷积核参数共享)大幅减少参数数量。- 设计原则:仅用3×3卷积核和2×2最大池化,通过增加层数(16层)提升性能。- 特征分层提取:模拟人类视觉分层处理机制,通过多层卷积逐步提取低级特征(如边缘)到高级特征(如物体部件)。通过卷积核提取空间特征,支持多通道输入(如RGB),参数包括核大小、步长、填充(Padding)。如2×2最大池化将特征图宽高减半。

2025-05-28 19:23:13 594

原创 2025神经网络与深度学习第一周总结

以房屋销售数据为例,假设房价与面积呈线性关系,可构建模型y = kx + b,其中x为面积(特征),y为房价(标签)。- 在输入层与输出层间增加隐层(如三层网络:输入层+隐层+输出层),通过隐层节点实现非线性变换。- 多层感知机通过隐层解决线性不可分问题,BP算法提供参数优化方法,二者结合构成BP神经网络。- 反向传播:将误差沿原路径反向传播,通过梯度下降调整各层参数,减小误差。- 正向传播:输入信号经隐层传递至输出层,计算实际输出与期望输出的误差。- 定理1:含阈值节点的三层网络可实现任意二值逻辑函数。

2025-05-28 18:55:12 727

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除