
深度学习
文章平均质量分 89
深度学习算法实战
油泼辣子多加
多少事,从来急;天地转,光阴迫。一万年太久,只争朝夕。
展开
-
【大模型】如何为你的RAG选择Embedding模型--MMTEB引领RAG系统变革
MMTEB的研究成果为嵌入模型的选型提供了一种全新的评判标准,打破了“模型越大越优”的固有观念。无论是对预训练数据的多语种覆盖要求,还是对指令微调带来的性能提升,这项研究都强调了科学评测的重要性。未来,随着多语言应用需求的不断增加,这种以任务导向、成本敏感为核心的评测体系必将推动整个行业向更高效、更精准的方向发展。总之,MMTEB不仅为开发者提供了一份详尽的嵌入模型能力图谱,也为全球多语言RAG系统的构建指明了方向。原创 2025-03-06 11:07:05 · 1569 阅读 · 2 评论 -
【大模型】RAG检索增强生成
RAG(Retrieval-Augmented Generation)是一种结合了信息检索(Retrieval)和生成(Generation)模型的混合型大模型架构,旨在解决传统生成模型在处理大规模外部知识时的局限性。简单来说,RAG通过在生成过程之前引入检索步骤,使得生成模型可以利用外部文档或知识库来增强其生成能力,提升对复杂问题的回答准确性。原创 2025-02-27 14:25:30 · 1296 阅读 · 0 评论 -
【模型】GRU模型详解
GRU 模型包含两个主要的门控机制:更新门(Update Gate)和重置门(Reset Gate)。决定当前隐藏状态与之前隐藏状态的相关程度。它通过一个 Sigmoid 函数输出一个范围在。根据更新门的值和上一时刻的隐藏状态与当前时刻的候选隐藏状态,最终计算出当前的隐藏状态。计算当前时刻的候选隐藏状态,候选状态结合了当前输入和重置门的影响。控制当前时间步的隐藏状态更新的程度。之间的值,决定当前时刻的信息有多少来自于之前的状态。之间的值,表示当前时间步要忘记多少之前的信息。原创 2025-02-21 10:34:30 · 1699 阅读 · 0 评论 -
【大模型】量化、剪枝、蒸馏
大模型的量化、剪枝和蒸馏是三种常用的模型优化技术,旨在减少模型的复杂性,降低计算资源消耗,并加速推理过程。原创 2025-02-19 16:40:50 · 1102 阅读 · 0 评论 -
【大模型】数据集构造方式
数据格式适用场景数据结构特点Alpaca指令微调(Instruction Tuning)独立的指令-输入-输出适用于任务型对话,结构清晰ShareGPT对话微调(Chat Fine-tuning)多轮对话(human & gpt)适用于对话模型,可用于 RLHF。原创 2025-02-17 17:17:53 · 776 阅读 · 0 评论 -
【模型】Bi-LSTM模型详解
遗忘门ftf_tft控制历史信息的遗忘程度。输入门iti_tit控制新信息的加入程度。更新单元状态ctc_tct结合了历史状态和新信息,更新了长期记忆。输出门oto_tot决定了哪些信息被传递到下一层或作为最终输出。原创 2025-02-04 20:15:38 · 1755 阅读 · 0 评论 -
【模型】RNN模型详解
RNN(Recurrent Neural Network)是一种具有循环结构的神经网络,它能够处理序列数据。与传统的前馈神经网络不同,RNN通过将当前时刻的输出与前一时刻的状态(或隐藏层)作为输入传递到下一个时刻,使得它能够保留之前的信息并用于当前的决策。RNN通过共享参数和权重来处理任意长度的序列输入,能够用于语言模型、时间序列预测等任务。原创 2025-01-24 11:12:30 · 1912 阅读 · 0 评论 -
【模型】Informer模型--时间序列数据预测
Informer 是一种针对长时间序列预测任务设计的深度学习模型,特别适用于解决序列数据的高效建模与预测问题。Informer 提出了许多创新的机制,尤其是在计算效率方面,能够显著提高长时间序列预测的准确性和速度。以下是对该模型的详细介绍。原创 2025-01-19 08:58:50 · 2144 阅读 · 1 评论