- 博客(11)
- 资源 (25)
- 收藏
- 关注
原创 Transformer原理科普
在计算过程中,t时刻应该只能看到0到t-1时刻的数据,但是在实际训练过程中,网络能够看到全局信息,所以增加了MASK,本质上是使网络在计算时可以使用全局信息,但是在输出时不要输出t时刻之后的值,将t时刻及其以后的值替换为一个非常大的负数,经过softmax后,该部分将变为0,不会被输出计算进去。,进入梯度饱和区(极端值区域),梯度趋近于0,模型难以更新参数除根号下dk缩放后的数值范围更稳定,Softmax 的输入分布在梯度敏感区域(非饱和区),梯度可以有效传播。,从而增强模型的表达能力和泛化性能。
2025-04-09 20:11:51
712
原创 layer & batch normalization的区别及应用场景
是两种最常用的归一化方法,它们的核心区别在于。是提升模型训练稳定性和收敛速度的关键方法,BN 和 LN 的核心差异在于。,这直接影响了它们的适用场景。
2025-04-09 16:05:33
880
原创 大模型实战-prompt
一、CRISPE框架(全能型设计模板),适用场景:需要精准控制输出风格与内容的复杂任务(技术文档、创意写作、商业分析等);二、BROKE框架(商业分析专用),适用场景:市场分析、战略规划、产品设计等商业决策场景。四、结构化模板(技术文档专用),适用场景:代码生成、API文档撰写、技术方案设计;三、角色设定框架(领域专家模式),适用场景:需要深度专业知识的垂直领域咨询。适用场景:复杂问题求解、数学推导、逻辑推理。适用场景:项目管理、流程优化、多步骤操作指导。适用场景:教育培训、操作指导、故障排查。
2025-04-02 16:27:47
317
原创 大模型幻觉及解决思路
检索增强生成(Retrieval-Augmented Generation, RAG)是一种结合信息检索与文本生成的混合式人工智能技术,旨在通过动态引入外部知识库,提升大语言模型(LLM)生成内容的准确性和可靠性。其核心思想是“先检索,后生成”,通过实时获取权威信息弥补模型自身知识的局限性,从而减少“幻觉”问题。RAG通过将生成模型与外部知识库动态链接,显著提升了生成内容的可信度,已成为解决大模型幻觉的主流方案之一。2、降低幻觉风险,生成内容受检索结果的约束,减少模型“编造”倾向。
2025-03-31 22:45:19
856
原创 图像超分辨率技术概述+SRGAN实践
当前主流算法如SRResNet和SRGAN在PSNR和视觉效果上各有侧重,未来趋势包括:1、无监督学习:减少对成对数据的依赖;2、多任务融合:结合去噪、去模糊等任务提升实用性;3、轻量化设计:优化网络结构以适配移动端应用。
2025-03-28 22:49:48
933
原创 大模型微调(1):基于unsloth的大模型微调实践
Unsloth 凭借其高效的训练优化和低资源需求,成为微调领域的热门工具,尤其适合中小团队和个人开发者,而其他方法如 LoRA、蒸馏和强化学习,则在特定场景(如模型压缩或对齐优化)中表现突出, 选择时需结合任务需求、硬件条件及开发周期综合考量。Unsloth 通过 Triton 优化的 GPU 内核 和 低秩适配器(LoRA/QLoRA) 技术,实现了训练速度提升 2-5 倍,显存占用减少 60%-80%。例如,微调 Llama3-8B 模型时,训练时间减少 30.72%,显存占用降低 42.58%。
2025-03-25 16:33:32
682
scikit_learn-0.21.0-cp35-cp35m-win_amd64.whl
2020-04-04
torchvision-0.5.0-cp35-cp35m-win_amd64.whl
2020-03-12
numpy-1.18.0rc1-cp35-cp35m-win_amd64.whl
2020-03-12
cvpr2019.zip
2020-03-09
cvpr2020(2).zip
2020-03-09
CVPR2020 论文(1).zip
2020-03-09
opencv_python-3.4.1.15-cp35-cp35m-win_amd64.whl
2020-02-05
opencv_contrib_python-3.4.1.15-cp35-cp35m-win_amd64.whl
2020-02-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人