concisedistinct
本人具有多年软件开发经验,热衷于探索和研究前沿技术。研究方向内容包括人工智能、大数据、云计算、系统架构和编程语言开发等。期待与大家一同成长和进步!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
如何最简单、通俗地理解Pytorch?神经网络中的“梯度”是怎么自动求出来的?PyTorch的动态计算图是如何实现即时执行的?
PyTorch是一门科学——现代深度学习工程中的一把锋利利器。它的简洁、优雅、强大,正在让越来越多的AI研究者、开发者深度应用。原创 2025-05-26 18:01:55 · 620 阅读 · 0 评论 -
神经网络加上注意力机制,精度反而下降,为什么会这样呢?注意力机制的本质是什么?如何正确使用注意力机制?注意力机制 | 深度学习
在深度学习的发展中,注意力机制的引入曾被誉为一次划时代的技术飞跃。无论是在自然语言处理领域产生Transformer架构,还是在图像识别、语音识别和推荐系统等多个方向取得显著成效,注意力机制的价值似乎毋庸置疑。然而,在一些实际应用场景中,研究人员和工程师却发现:在传统神经网络中引入注意力机制后,模型的预测精度不仅没有提升,反而下降了。这是一种背离常识的现象,也成为研究与实践中的棘手难题。原创 2025-05-25 20:18:26 · 1335 阅读 · 0 评论 -
在机器学习中,L2正则化为什么能够缓过拟合?为何正则化等机制能够使一个“过度拟合训练集”的模型展现出更优的泛化性能?正则化
在现代机器学习的发展历程中,过拟合(Overfitting)始终是亟需克服的重要挑战。其表现如同在训练数据上构建过度复杂的映射函数,虽能实现近乎完美的拟合,但其泛化能力却显著受限,导致模型在测试集或实际应用中表现不佳,暴露出严重的鲁棒性和适应性不足。为了摆脱这一困扰,研究者们提出了种种策略,而其中一个经典又广泛应用的技术,便是L2正则化(L2 Regularization)。原创 2025-05-25 20:15:07 · 409 阅读 · 0 评论 -
为什么在设置 model.eval() 之后,pytorch模型的性能会很差?为什么 dropout 影响性能?| 深度学习
为什么在训练时模型表现良好,但设置 model.eval() 后,模型的性能却显著下降?原创 2025-05-24 17:11:44 · 341 阅读 · 0 评论 -
信息瓶颈理论(Information Bottleneck Theory)中的“最小化信息”是否意味着“最大化抽象能力”?
在这个信息爆炸的时代,我们越是接收信息,似乎越难以理解世界的本质。我们拥有前所未有的计算能力,数据如洪水般涌入,但“理解”并没有随之增长,反而常常陷入冗余的信息迷宫。在人工智能和认知科学的交叉领域,有一个理论试图对这个现象做出解释——信息瓶颈理论(Information Bottleneck Theory)。它提出一种观点:理解是通过“丢弃”信息而非“保存”信息来实现的。原创 2025-05-12 17:07:16 · 414 阅读 · 0 评论 -
如何评价大语言模型架构 TTT ?模型应不应该永远“固定”在推理阶段?模型是否应当在使用时继续学习?
在深度学习的发展史中,每一次架构层级的突破,都往往伴随着一种范式的转变。从卷积神经网络(CNN)引领计算机视觉,到循环神经网络(RNN)与LSTM带动自然语言处理的第一次腾飞,再到Transformer构建的语言模型帝国,每一次技术的跃迁都改变了“模型训练”和“模型应用”的基本关系。而如今,一个引发广泛思考的新架构理念正渐渐出现——Test-Time Training(简称TTT),正在重新定义模型训练的“时间维度”。原创 2025-05-07 17:41:09 · 376 阅读 · 0 评论
分享