blackool-优快云博客

原创 0815个人学习日志

例如，两个 3×3 卷积层（共 18 个参数）的感受野等效于一个 5×5 卷积层（25 个参数），但参数量减少约 28%。若替换为 7×7 卷积，三个 3×3 卷积层（27 个参数）的感受野与 7×7 卷积（49 个参数）相同，但参数量减少 45%。多个小卷积层的堆叠逐步扩大感受野，这种设计在保持全局语义信息的同时，通过逐层细化局部特征，避免了大卷积核对细节的模糊处理；发现深层且窄的卷积（即3×3）比较浅层且宽的卷积更有效。同感受野下，较小的卷积核意味着卷积层更多，可以插入更多的非线性映射函数。

2025-08-15 21:09:32 336

原创 0801学习日志

PyTorch优化器支持对参数组进行差异化配置，通过字典列表实现灵活的参数控制。在误差评估方面，相对误差指标（如对数尺度转换）更适合房价预测等场景。训练中出现损失曲线波动时，可通过调整批次大小、学习率或控制梯度范数来稳定训练。数据预处理时，建议合并训练/验证集后再进行独热编码以避免特征缺失，或使用频率编码降低维度。对于需输出正值的模型，采用ReLU或Softplus激活函数可保持梯度流动。这些方法能有效提升模型训练的稳定性和预测效果。

2025-08-01 22:01:08 1471

原创 0728学习日志

if __name__ == '__main__':的作用是让 IDE 将程序识别为 “独立进程”，而非 “绑定到 IDE 的交互式代码”，从而避免了 IDE 因 “焦点切换” 而暂停程序的行为。计算机通过地址总线对内存进行线性寻址，当层的宽度是 2 的幂次方时，在计算内存地址偏移量等操作上可以利用二进制的特性进行高效计算，契合了内存按块分配、满足对齐要求。开启交互模式后，plt.plot() 会直接更新当前图表，代码无需等待窗口关闭即可继续执行，支持。plt.ion() # 开启交互模式。

2025-07-29 09:33:19 1193

原创 0721学习日志

最大似然在假设噪声分布下最大程度提高当前训练参数出现的可能性，但随之而来的就是过拟合的风险，所以需要通过别的途径防止过拟合。在 Pandas 1.3.0 及以后的版本中，mean() 方法默认会尝试处理所有列（包括字符串列），而字符串列无法计算均值，因此必须显式指定 numeric_only=True，否则会报错。2.在使用torch.tenser求mean、sum等时，在指明axis的情况下，结果会将对应张量维度坍缩，如果后续需要对原数据张量进行计算，可能需要使keepdims = True。

2025-07-21 22:19:30 282

原创 0718学习日志

先定义计算图的结构（如节点和边），然后再传入数据进行计算。计算图在运行前就已经固定，类似于编译型语言。在运行时动态构建计算图，每执行一行代码就实时生成对应的计算图结构，类似于解释型语言。静态图适合追求极致性能的生产环境，而动态图更适合灵活的研究和开发。

2025-07-18 22:31:18 225

原创 0715学习日志

神经网络神经元的功能取决于预测目标，相同数据集可提取不同特征应对不同任务。RNN模型先学习简单高频模式，后挖掘复杂低频规律。LazyConv通过自动推断输入维度简化模型构建，提升代码复用性。nn.Bilinear实现双线性变换，捕捉输入间交互关系。LSTM采用双记忆通道与门控机制(sigmoid控制流量，Tanh规范信息)，有效缓解梯度问题，确保信息正常传递。这些机制共同提升了神经网络的适应性和稳定性。

2025-07-15 21:30:18 224

原创 0713学习日志

2. GPU 擅长并行处理大量数据。更大的 Batch Size 可以让 GPU 同时处理更多样本，充分利用其多核计算能力，减少计算资源闲置。Batch Size 增大后，数据吞吐量提高，更充分地利用了内存带宽。3. Batch Size并不是越大越好。首先有硬件方面的限制，其次小容量 Batch Size 引入的随机梯度噪声有助于跳出局部最优解，增强泛化能力。4.复用权重是神经网络防止过拟合，增强数据相关性的优秀方法，可以在尝试自己设计神经网络的时候自行创造一个贴合自己需要的“神经元”（如：卷积）

2025-07-13 23:43:45 141

原创 0711日志

2. 现实中，不同数据源（如不同标注者、不同工具生成的文件）的信息往往存在不一致（标注误差、测量精度等导致），处理这些细节是实际项目中不可或缺的环节。

2025-07-11 22:31:22 385

原创 0710尝试建立卷积模型训练MNIST

这次增加了一个卷积层，但减少了线性层的宽度，这时发现必须提高训练轮次才能使模型收敛。这里发现两个损失曲线都收敛，但还没有收敛完全，测试函数损失意外的比训练函数损失低。现在我们已经大幅度削减了模型的参数，模型的训练时间从84秒降低到22秒，然而其正确率几乎没有变化。这次我们的训练时间大幅度缩短，但根据损失函数曲线来看，模型出现了过拟合，但根据损失曲线早期的训练轮次损失较低，所以采取早停策略。6. 测试集已有95%以上的正确率，但介于任务的难度和模型的大小，现在尝试缩小模型并最大化地保证模型的质量。

2025-07-10 19:52:36 1097

原创 0709学习日志

3. Dropout 是一种强大的正则化技术，通过随机停止部分神经元的更新来提高模型的泛化能力。其通过随机子模型集成减少神经元协同过拟合，同时通过特征扰动产生数据增强效果，两者共同作用使模型更加鲁棒。5. Batch Normalization通过对每一层的输入进行归一化，将其重新调整到激活函数的敏感区域，缓解了饱和与梯度消失问题，其利用批量统计量的随机性带来了一定的正则化效应。TensorFlow/Keras 的 momentum 表示历史统计量的权重。，仅因历史习惯和命名简洁性存在差异。

2025-07-09 22:27:23 287

原创 0708个人学习日志

今天学习卷积神经网络：

2025-07-08 22:48:03 134

原创个人日志0707

使用TorchVision的数据集CIFAR-10建立神经网络，今天主要集中在利用独热编码为图像分类。推测是线性结构的局限性，想要以少代价提升性能只能后续更换为卷积网络。但图片呈现存在问题，且推测存在过拟合。

2025-07-07 22:59:00 299

原创练习0706

继续学习使用torch建立神经网络，今天主要集中在利用独热编码为图像分类。

2025-07-06 17:54:02 134

原创 0705练习

此时发现模型的拟合度大大提高，过拟合程度在可接受范围内，基本确认模型训练完成。尝试训练三层神经网络，使其分辨出酒的各类特征与其质量之间的关系。解决：不同数据之间的数值间距区别过大，可以尝试更改数据或调整区间。问题：不知为何三维视图表现极其诡异，尝试找出问题所在。可以发现转移到GPU上进行运算后计算速度明显提高。现在尝试把模型转移到CUDA上进行训练。从损失函数上来看，模型拟合良好。

2025-07-05 22:00:08 241

blackool的博客