面试题库
文章平均质量分 93
面试题库
汗流浃背了吧,老弟!
全是学习笔记,我很菜,不指望能教会别人
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
针对性优化RAG延迟的三个环节
本文针对RAG系统的延迟问题,提出三大核心优化环节:查询处理、检索执行和生成反馈。在查询处理环节,通过语义增强和复杂查询分解提升检索精准度;在检索执行环节,采用专用硬件部署和分布式架构提升算力;在生成反馈环节,通过细粒度诊断和自适应优化确保系统持续高效。文章还介绍了Graph RAG和Agentic RAG等前沿技术,以及实施路径和工具推荐,最终形成一套标准化优化方案,实现RAG系统低延迟、高精准的落地目标。原创 2026-01-09 18:55:11 · 590 阅读 · 0 评论 -
为什么RAG在多轮对话中可能表现不佳?
摘要: RAG在多轮对话中表现不佳的核心原因包括:检索与对话历史脱节导致相关性下降、上下文窗口限制造成信息丢失、知识冲突难以维护、静态检索策略无法适应动态语境,以及无法捕捉用户意图的隐性演进。改进策略需聚焦"对话感知能力":通过对话记忆模块关联历史信息,优化信息压缩与调用,增加检索结果校验,采用主题感知检索策略,并构建分层检索库匹配不同意图层级。这些方法可使RAG从单轮检索升级为多轮动态检索,提升回答的一致性和针对性。原创 2026-01-09 17:38:22 · 611 阅读 · 0 评论 -
KV Cache核心逻辑:“存”替“算”,解累加计算之困
KV Cache:大语言模型推理优化的核心技术 KV Cache是一种通过缓存历史计算结果来加速大语言模型自回归生成过程的关键技术。它解决了Transformer解码器在逐词生成时重复计算历史token Key/Value矩阵导致的效率瓶颈问题,将计算复杂度从O(t²d)降至线性增长O(td)。KV Cache通过"计算-缓存-复用"的工作流程,显著提升生成效率,支持实时流式输出,并降低显存需求5-10倍。尽管长序列下存在显存挑战,但通过MQA/GQA、量化压缩等优化技术,KV Cach原创 2026-01-09 16:56:36 · 618 阅读 · 0 评论 -
L1 与 L2 正则化约束:几何直观
正则化约束是机器学习中防止过拟合的重要技术,通过在损失函数中加入约束项限制模型参数取值。L2正则化通过参数平方和约束使参数趋向小值,L1正则化通过绝对值约束产生稀疏解,弹性网络则结合两者优点。从几何视角看,正则化在参数空间中划定允许区域,L2对应圆形/超球体,L1对应菱形/超立方体。正则化的核心作用是平衡模型复杂度,提升泛化能力,具体选择需根据特征相关性等需求决定L1、L2或弹性网络。原创 2026-01-07 16:54:01 · 650 阅读 · 0 评论 -
LoSA入门:如何实现高效适配
摘要: 针对大语言模型(LLMs)全参数微调成本高的问题,稀疏微调通过结构化剪枝(保留10%-25%参数)降低计算量,但高稀疏率(75%-90%)易导致性能退化。传统低秩适配(LoRA)因外挂式增量设计无法与稀疏模型兼容,破坏零值结构或增加推理延迟。本文提出动态低秩稀疏适配(LoSA),通过稀疏对齐的低秩矩阵融入剪枝权重,保持硬件加速特性,并结合动态稀疏率与自适应秩分配优化性能。实验表明,LoSA在保持稀疏模型轻量化优势的同时,显著减少高稀疏率下的精度损失。原创 2026-01-07 18:05:11 · 534 阅读 · 0 评论 -
LoRI 与 LoRA:差异解析
在大型语言模型(LLMs)的参数高效微调(PEFT)方法中,LoRA(Low-Rank Adaptation)虽被广泛使用,但在多任务场景下存在两大挑战:一是参数冗余与内存开销,LoRA仍需更新大量参数,尤其在多任务合并时资源消耗大;二是跨任务干扰,直接合并不同任务的LoRA适配器会导致参数冲突、性能下降,持续学习中易出现灾难性遗忘。原创 2026-01-07 13:23:09 · 887 阅读 · 0 评论 -
模型压缩的几种方式
通过移除模型中“不重要”的参数(如权重接近0的连接、冗余的神经元/通道),减少模型规模的技术,分为结构化剪枝(删除整层/通道,硬件友好)和非结构化剪枝(随机删单个参数,易生成稀疏矩阵)。让小模型(学生模型)学习大模型/模型集合(教师模型)的“知识”(包括输出概率分布、中间层特征等),从而在保持小模型规模的同时,接近大模型性能的技术。训练时是正常浮点精度,训练完直接把浮点模型转成低精度(比如 FP32→INT8),测试时用低精度模型直接推理(硬件支持低精度计算)。量化的“极端形式”:将模型参数/激活值仅用。原创 2026-01-07 11:34:25 · 961 阅读 · 0 评论 -
什么是ResNet
ResNet(残差网络)是2015年提出的里程碑式深度学习模型,通过创新性地引入残差块和跳跃连接解决了深层网络的梯度消失和退化问题。其核心思想是让网络学习输入与输出之间的残差映射,而非直接学习目标函数,从而显著提升了超深网络的训练效果。典型结构包含基础残差块和瓶颈残差块两种形式,支持18-152层的网络深度。ResNet不仅突破了深层网络训练的限制,更成为后续计算机视觉模型的基础架构,在图像分类、目标检测等任务中长期保持领先性能,深刻影响了深度学习的发展方向。原创 2026-01-06 18:48:29 · 487 阅读 · 0 评论
分享