Artiken-优快云博客

扩散模型与 Transformer 的结合为序列到序列（Seq2Seq）任务，如机器翻译、文本摘要等，开辟了新的可能性。当扩散模型与 Transformer 相结合后，在生成图像、音频和文本等内容方面展现出了非凡的能力。结合了扩散模型和 Transformer 的模型在提升效率和准确性方面也取得了显著的进展。这种结合方式在处理多样化且复杂的数据集时，展现出了更出色的泛化能力。（2）改进的序列到序列模型。（3）提高模型的泛化能力。（4）提升效率和准确性。（1）增强的生成能力。

2024-11-20 09:22:08 722

原创智驾系统的技术核心（BEV算法）

利用Transformer大模型可以提取特征向量，在统一的3D坐标系空间（BEV）内做特征融合，还可以结合时序信息进行动态识别，最后进行多任务输出，如静态语义地图、动态检测等。这一网络模型旨在实现对车辆周围环境的精确建模，从而帮助车辆在没有使用超声波传感器或雷达的情况下（纯视觉方案），也能有效地理解道路场景和进行路径规划。成本优化—在生成的多条轨迹中，规划器会选择成本最低的那一条作为最优解决方案，以决定车辆接下来的行驶动作，输出规划行驶轨迹。智能驾驶系统核心可以概述为三个部分：感知，规划，和决策。

2024-11-19 16:38:36 779

原创 Scaling Law

2024-11-11 21:47:55 96

原创小模型综述（蒸馏含金量逐渐上升-论文分享）

将蒸馏与修剪相结合可创建更小、更有效的语言模型。上下文稀疏和动态修剪方法可优化计算和内存。较于闭源模型，这些开源模型在成本效益上显著提升，特别是 405B 模型的开源特性，使其成为微调和蒸馏小型模型的最佳选择。后面的5、6、7 节概述了基准数据集和评估指标，讨论了按限制条件排列的 SLM 支持的应用程序以及SLM中的未决挑战。🚀压缩技术：第 4 节涵盖了诸如修剪、量化和蒸馏等模型压缩技术。🚀 架构：第 2 节重点介绍轻量级模型架构和高效的自我注意力。🚀 预训练：第 3 节讨论 SLM 的预训练和微调技术。

2024-10-31 15:44:23 277

原创 C++面试补充资料

2024-10-30 19:49:13 125

原创 RAG中embedding模型怎么选

归一化折扣累积增益：考虑了信息的相关性不是只有“有”或“没有”，而是根据不同程度的相关性。- 倒数排名（RR）：第一个有用块出现的位置的倒数，例如第一个信息就有用就是1，在第二个出现就是1/2。RAG链路中，虽然响应时间与模型处理时间比九牛一毛，但对于某些场景来说，每一步的延时都至关重要。- 平均精确率（AP）：检索到的信息中有用的信息的排名，如果有用信息都在前面排名就高。- 上下文精确率：检索到的内容中有用的信息/所有检索到的信息。- 上下文召回率：检索到的内容中有用的信息/所有有用的信息。

2024-10-27 21:17:41 211

原创深度学习中如何平衡多个Loss？

进一步优化的方式是按比例调整各个loss，例如：loss = loss1 + loss2 / (loss2 / loss1).detach() + loss3 / (loss3 / loss1).detach()。这种方法通过自动调整不同loss之间的比重，使它们与主要loss保持合理的比例，避免手动调整中的人为偏差。这种方法通过每轮迭代中动态调整各个loss的权重，使它们的尺度一致。通常情况下，loss的尺度并不会显著影响模型性能，除非某个次要的loss权重设置过大，反而盖过了主要loss的影响。

2024-10-27 21:09:08 410

原创 Bert的三个Embedding可以相加吗

尽管相加看似简单，但它能够很好地融合来自词、位置和段落的三种不同信息，使得模型可以捕捉到句子中每个词的语义、顺序和段落关系。尽管Bert通过直接相加的方式来处理这些Embedding，后来一些技术方案如RoPE（旋转位置嵌入）则提出了更具数学性和结构性的改进。在RoPE的设计中，引入了类似于复数的结构，通过旋转变换来表示位置信息的变化，这大大优化了传统位置嵌入方法。通过更复杂的代数结构，如哈密尔顿代数，可以在多维空间中进行旋转，从而为更复杂的任务提供了理论支持。（2）相对位置的更优解：RoPE。

2024-10-27 20:51:46 235

原创 RAG中embedding模型怎么选

它衡量的是找到的信息的相关性是否按照重要性排序。如果重要信息排在前面，这个指标就高。3.模型响应时间：RAG链路中，虽然响应时间与模型处理时间比九牛一毛，但对于某些场景来说，每一步的延时都至关重要。- 倒数排名（RR）：第一个有用块出现的位置的倒数，例如第一个信息就有用就是1，在第二个出现就是1/2。- 平均精确率（AP）：检索到的信息中有用的信息的排名，如果有用信息都在前面排名就高。- 上下文精确率：检索到的内容中有用的信息/所有检索到的信息。- 上下文召回率：检索到的内容中有用的信息/所有有用的信息。

2024-10-24 09:23:46 282

原创 RAG知识汇总

⑦RAG未来前景（会不会被长上下文取代，如果LLMs不受限制，RAG如何改进)?#全文内容概要涵盖了几乎RAG所有的知识点内容哈。⑥如何评估RAG的效果（面试必问）?③RAG的工作流程?④RAG的技术架构?⑤RAG的技术进阶?

2024-10-21 11:32:35 120

原创什么是端到端？端到端自动驾驶有哪些瓶颈？

那么这无疑拉高了训练成本和准确率，并且直接影响了这玩意儿出厂，因为商用是严肃的，一旦商用你必须得保证最痴呆低级的用户以及最严苛的使用场景以及最糟糕的天气环境下都能顺畅使用你的产品，这对实验室条件下看起来没那么大问题的理论模型提出了相当高的要求。端到端一开始的意思是在AI领域，或者说写程序时的一个概念，端到端指的是输入是原始数据，输出是最后的结果，原来输入端不是直接的原始数据，而是在原始数据中提取的特征.端到端自动驾驶通过将传感器收集到的全面信息作为输入，在单一网络中直接生成车辆的控制指令或运动规划。

2024-10-17 20:21:59 527

原创 git的工作原理

当开发者希望与其他人分享这些更改时，可以使用`git push`命令，将本地仓库的改动推送到远程仓库。这一操作实际上包含两个步骤：`git fetch`从远程仓库获取最新的更改，而`git merge`则将这些更改与本地仓库进行合并。此外，`git fetch`是一个常用命令，它从远程仓库获取最新的改动，但不立即与本地代码合并。此时，开发者可以使用`git reset`来撤销暂存区中的改动，返回工作区进行修改。接着，开发者可以使用`git commit`命令将暂存区的改动保存到本地仓库。

2024-10-07 12:00:40 310

原创 self-refine: 让LLM自己修改outupt

Self-Refine: Iterative Refinement with Self-Feedback是发表在NeurIPS 2023的一篇论文，本文作者提出了self-refine方法让LLM 自己修改output，优点是不需要对LLM做任何的训练/微调。缺点是依赖prompt工程，导致方法不够general，需要为每个下游任务设计一套prompt。#self-refine: 让LLM自己修改outupt。

2024-09-29 17:42:31 247

原创 Sigmoid总结

②激活函数的偏移现象。Sigmoid函数输出值均大于0，使得输出均值不是0，这会导致后一层的神经元将得到上一层非0均值的信号作为输入，这会对梯度产生影响。Sigmoid函数是一种logistic函数，它将任意的值转换到 [0,1] 之间，函数表达式如图3所示。①Sigmoid函数的输出在(0,1)之间，输出范围有限，优化稳定，可以用作输出层。①饱和性，其两侧导数逐渐趋近于0，容易造成梯度消失。③计算复杂度高，因为Sigmoid函数是指数形式。②连续函数，便于求导。

2024-09-29 03:10:43 337

原创为什么transformer用softmax而非sigmoid ？

②因为效果问题，目前大部分语言、视觉预训练模型用的都还是Softmax Attention，不过最近Apple的一篇技术报告最近重新发掘了Sigmoid Attention的潜力。首先回顾Sigmoid的基本性质。③约束Sigmoid Attention注意力分数的范数大小就可以稳定其训练，可以用Alibi位置编码，也可以对sigmoid的bias项b赋一个大的初始负值，可行的方案是-ln(n)（n为序列长度），加上对b的初始化约束后，用ROPE的模型就可以正常训练。

2024-09-29 03:05:50 465 1

原创 ResNet结合Transformer，暴力涨点新思路！

当我们将这两种技术结合起来时，不仅能显著提高模型的特征提取能力和全局理解能力，还能在保持强大的局部分析能力的同时，利用全局信息进一步优化性能。ResNet以其深层网络结构和独特的残差连接著称，能够高效地提取图像的局部特征。而Transformer的自注意力机制则擅长捕捉图像中的长距离依赖关系，为模型提供全局上下文信息。在这篇文章中，我总结了9种将ResNet与Transformer相结合的创新方法，提炼出了值得借鉴的方法和创新点，希望能为各位研究者提供有价值的思路和灵感。

2024-09-29 03:02:03 572 2

原创推理 vs 训练 GPU 需求有何不同？

推理则更关注低延迟、高效能的计算，并倾向于使用低精度的模型来加速推理。#训练过程要求强大的并行计算性能、大显存和高能效的GPU。

2024-09-26 08:45:09 762

原创 softmax

图3式中如果x为很大的正数，e的x次幂过大，导致float32溢出，称为上溢出。如果x为很小的负数，e的x次幂为接近0，超过有效数字后就是0，而如果分母都是0，就出现了除0错，称为下溢出。解决方案是分子上下，同时除以e的max(x)次幂，如图4所示。（1）Softmax函数是二分类函数Sigmoid在多分类上的推广，目的是将多分类的结果以概率的形式展现出来。（3）当发生上溢出时，分子为0，故而避免了上溢出而发生下溢出时，分母中至少有一个为1，避免了除0错，故而避免了下溢出。

2024-09-20 02:49:21 232

原创推荐算法遇到的常见八股整理：

2.Transformer ( encoder/decoder/attention/masked 机制常见）5.lightgbm/xgboost等数模型（这个如果项目用到，被问到的几率非常大，一般就是讲区别和联系）8.推荐的整个流程，召回/粗排/精排典型模型。11.bagging和boosting。7.归一化（尤其是LN和BN的区别）14.准确率/召回率/精确率。15.梯度消失/梯度爆炸。4.L1/L2正则化。18.LR/SVM等。

2024-09-17 21:09:47 420

原创大模型面经：bert和gpt区别

BERT和GPT是自然语言处理（NLP）领域中的两种重要预训练语言模型，它们在多个方面存在显著的区别。

2024-09-12 12:42:47 189 1

原创搞定Docker本地部署LLama3

如何快速本地部署LLAMA3

2024-08-11 10:51:10 234

原创 Diffusion Augmented Agent(DAAG)

论文剖析

2024-08-11 10:36:19 523

转载 Git常用指令

2024-08-11 09:50:31 26

原创 Embedding 技术在推荐系统中的应用

传统推荐系统（RS）主要利用ID嵌入策略处理用户和内容，但忽视了内容描述中的语义信息，导致新用户和长尾用户推荐的精准度较低。本文的目标是改进推荐系统，特别是针对新用户和长尾用户的推荐精准度。简要概括为①新用户：新用户没有多少历史数据，所以推荐不够精准；②长尾用户：有些不太热门的内容推荐效果不好。为了解决这些问题，解决方式概括分四点：引入大型语言模型（LLM）训练模型适应推荐系统创新的双塔结构自监督对比学习

2024-08-10 20:26:34 310

qq_56583393的博客

原创端到端现状

原创扩散模型与Transformer的结合创新点

原创智驾系统的技术核心（BEV算法）

原创 Scaling Law

原创小模型综述（蒸馏含金量逐渐上升-论文分享）

原创 C++面试补充资料

原创 RAG中embedding模型怎么选

原创深度学习中如何平衡多个Loss？

原创 Bert的三个Embedding可以相加吗

原创 RAG中embedding模型怎么选

原创 RAG知识汇总

原创什么是端到端？端到端自动驾驶有哪些瓶颈？

原创 git的工作原理

原创 self-refine: 让LLM自己修改outupt

原创 Sigmoid总结

原创为什么transformer用softmax而非sigmoid ？

原创 ResNet结合Transformer，暴力涨点新思路！

原创推理 vs 训练 GPU 需求有何不同？

原创 softmax

原创推荐算法遇到的常见八股整理：

原创大模型面经：bert和gpt区别

原创搞定Docker本地部署LLama3

原创 Diffusion Augmented Agent(DAAG)

转载 Git常用指令

原创 Embedding 技术在推荐系统中的应用

空空如也

空空如也