- 博客(10)
- 收藏
- 关注
原创 深度学习核心算法-梯度下降
优势:容易实现、适用范围广、可拓展性强(变异体包括:批量梯度下降(Batch Gradient Descent)、结合随机梯度下降(Stochastic Gradient Descent,SGD)、动量梯度下降(Momentum Gradient Descent)和Adam优化器)。简单来说,梯度下降的核心思想是:模型的参数通过不断调整,朝着减少预测误差的方向“下降”,即沿着误差函数的“梯度”方向移动。每一次迭代中,计算梯度、更新参数,并更新模型的预测结果,直到模型的性能达到预期或某种终止条件。
2025-02-24 16:09:14
444
原创 DeepSeek发展及创新
DeepSeek V2-V3及R1在模型架构上选择稀疏MoE模型而非稠密模型,并进行和积累了大量技术创新,包括MLA、FP8训练、MoE AIl-to-All通信瓶颈解决、MTP等这些技术并不是所有都是原始创新,但是能够进行如此多大模型架构底层创新的实验室,在全世界可能也只有少数几个;DeepSeek-R1-Zero:大规模RL训练,发现了RL训练的Scaling Laws,RL训练涌现“aha”时刻。推理模型蒸馏:将大模型推理能力蒸馏到小模型,优于小模型直接进行推理训练(规模效应)
2025-02-24 11:36:29
177
原创 罗技鼠标用后感
在旗舰店买的罗技304,一开始使用时确实感觉不错,但不到一年出现回转,102出现回转和双击问题,给售后打电话没有一个接的(真菜啊!
2024-04-11 11:13:07
313
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人