- 博客(7)
- 收藏
- 关注
原创 大语言模型的关键技术
为了解决这一问题,研究者提出了“指令对齐”,使语言大模型的输出更符合人类的预期。5.第五种是可预测扩展策略(Predictable Scaling),旨在大模型训练初期,利用大模型和小模型的同源性关系,通过拟合系列较小模型的性能曲线预测大模型性能,指导大模型训练优化。指令微调学习形式与多任务提示微调相似,但与提示微调让提示适应语言大模型并且让下游任务对齐预训练任务不同,其是让语言大模型对齐理解人类指令并按照指令要求完成任务,即在给定指令提示的情况下给出特定的回应,其中提示可以选择性包含一条解释任务的指令。
2025-12-01 21:51:13
414
原创 如何学习Transformer
在直接学习 Transformer 之前,你需要知道它为什么如此重要。:序列到序列(Seq2Seq)任务、机器翻译、语言模型。这是 Transformer 的灵魂。你需要彻底理解它。d_k现在,将自注意力机制放到完整的架构中理解。原始论文《Attention Is All You Need》的图是核心。“纸上得来终觉浅,绝知此事要躬行。
2025-11-18 21:43:16
686
原创 深度解密AI大模型:它到底如何理解我们的世界?
AI大模型的工作原理既复杂又优美——它建立在海量数据、庞大参数和精巧的Transformer架构之上,通过下一个词预测这一简单目标,意外地涌现出令人惊讶的语言理解和生成能力。然而,我们必须清醒认识到,当前大模型的“智能”本质上仍是大规模参数空间中语言规律的统计映射,是训练数据中模式的复现、重组与泛化,而非真正意义上的理解和推理。未来,大模型技术将向更高效(如MoE混合专家架构)、更多模态(图文音视频融合)和更可控(增强可解释性和对齐)的方向发展。同时,AI智能体。
2025-11-11 21:02:42
570
原创 别再死记LLM、Prompt这些概念了!这才是你该搞懂的内在逻辑
LLM是发动机:提供最核心的认知和理解能力。Prompt是方向盘:指引和操控LLM的输出方向。AI Agent是自动驾驶汽车:整合了发动机和方向盘,还能自己规划路线、加油(使用工具),最终把你送到目的地。RAG是实时导航和交通信息:确保汽车行驶在正确的道路上,并获取最新路况,避免出错。关系演进基础能力 (LLM)->交互方式 (Prompt)->能力扩展 (RAG)->自主行动 (AI Agent)
2025-11-10 18:30:00
777
原创 什么是python?
Python就像编程界的“瑞士军刀”——功能多样、易于上手且非常强大。无论你是想进入IT行业的学生,是想提高工作效率的办公人员,还是前沿的AI研究员,Python都可能是一个非常好的选择。它的哲学是“用一种方法,最好是只有一种方法来做一件事”,这种对简洁和优雅的追求,使得Python在众多编程语言中脱颖而出。
2025-11-10 14:00:23
719
原创 AI大模型,说白了就是个“顶级废话文豪”
它是什么?一个通过阅读海量文本,学会了玩“超级词语接龙”的概率机器。它怎么这么聪明?因为它学的太多了,以至于统计规律中涌现出了类似理解、推理、创作的能力。就像无数水滴汇聚成了海浪,看起来就有了生命。它有意识吗?完全没有。它不知道自己说了什么,更没有喜怒哀乐。它只是根据你的输入,算出一串最有可能让你觉得“合理”的文字而已。它的所有“智慧”,都来自于我们人类投喂的数据和设定的规则。所以,下次和AI聊天时,你可以这么理解:你正在和一个被人类用互联网和打分规则精心驯化出来的、超级勤奋的“废话文豪”
2025-11-04 21:00:00
563
原创 大语言模型的发展历程是什么?
事实上,即便是对30亿参数的模型进行微调,对许多个人或组织来说也依然是一项艰巨的任务。在早期,仅解码器模型的影响力与流行度不及仅编码器模型和编码器-解码器模型。这意味着,通过提供合适的任务描述或示例作为提示,这些庞大的自回归语言模型就能直接理解并完成任务,从而确立了仅解码器架构在大语言模型领域的主导地位。它们首先进行预训练,然后在一个规模有限、专注于特定任务的数据集上进行再次训练,以优化其在该特定任务上的性能。因此,为下游任务选择模型时,优先考虑在相似领域数据上预训练的模型通常是明智的。
2025-11-04 07:30:00
844
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅