- 博客(228)
- 收藏
- 关注
原创 智能体agent技术介绍与产业分析
简单 LLM 与 AI Agent 智能体之间的核心差异体现在系统提示词(System Prompt)上。在 LLM 的情境中,系统提示词是在模型开始处理用户查询之前,提供给模型的一系列指令和背景信息。可以在系统提示词中明确 LLM 所应展现的 AI Agent 智能体行为。以下是一些常见的 AI Agent 智能体模式,它们可以根据您的具体需求进行调整:工具使用:AI Agent 智能体判断何时应将查询导向适当的工具,或者何时依赖自身的知识库。
2025-03-12 11:07:03
825
原创 MCP协议
MCP(Model Context Protocol,模型上下文协议) 是由 Anthropic 推出的一种开放标准,旨在统一大型语言模型(LLM)与外部数据源和工具之间的通信协议。MCP 的主要目的在于解决当前 AI 模型因数据孤岛限制而无法充分发挥潜力的难题,MCP 使得 AI 应用能够安全地访问和操作本地及远程数据,为 AI 应用提供了连接万物的接口。
2025-03-12 11:03:44
1624
原创 策略梯度优化之TRPO/PPO/AC/A2C/GRPO
前文讲到,神经网络训练时,需要的数据是独立同分布的,为了打破数据之间的相关性,DQN和DDPG的方法都采用了经验回放的技巧。然而经验回放需要大量的内存,打破数据的相关性,经验回放并非是唯一的方法。对于每个回合内的每个t,我们都算一下新策略和旧策略的KL散度,这样可以确保搜索参数的区域小,在比回合更小的粒度(iteration粒度)上调整策略。这是因为我们对于输入的同一个状况,由于输出要具有一定随机性的存在,那么其实这些所有可能所能获得的Reward的平均值就是Vθ,这就是Critic的含义。
2025-02-08 11:00:37
1118
原创 DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
deepseek-R论文阅读翻译
2025-02-07 14:27:17
620
原创 测试时计算策略(BON, stepwiseBON, beamsearch, lookahead,混合方法,计算最优扩展,过程奖励模型引导,多数投票)
测试时计算策略
2024-12-25 17:10:28
1197
原创 强化学习进化之路(PPO->DPO->KTO->ODPO->ORPO->simPO)
DPO,PPO,ORPO,ODPO,KTO, simPO
2024-11-27 14:41:17
4922
2
原创 为什么decoder-only
总而言之,decoder-only 在参数量不太大时就更具有更强的zero-shot性能、更匹配主流的自监督训练范式;而在大参数量的加持下,具有了涌现能力后、可以匹敌encoder-decoder做finetuning的效果;在In Context的环境下、又能更好地做few-shot任务。decoder-only 架构符合传统的 Language Model 的模式。
2024-10-10 17:31:20
1249
原创 leetcode---素数,最小质因子,最大公约数
方法1:依次判断能否被n整除即可,能够整除则不是质数,否则是质数方法2:假如n是合数,必然存在非1的两个约数p1和p2,其中p1<=sqrt(n),p2>=sqrt(n)。方法3:等于 6x-1 或者 6x+1,其中 x 是大于等于1的自然数。
2024-10-10 16:39:11
1226
原创 MLP优化KAN
函数 f 的定义域是一个n维的闭区间[0, 1]的笛卡尔积,值域是实数集合R。简单来讲,函数 f 接受一个n维向量作为输入,并将其映射到实数集合R中的一个数。每个维度的取值范围都是[0, 1],所以输入向量的每个分量都是在[0, 1]内取值的。
2024-10-10 16:35:37
1139
原创 知识蒸馏介绍
知识蒸馏(knowledge distillation)是模型压缩的一种常用的方法,不同于模型压缩中的剪枝和量化,知识蒸馏是通过构建一个轻量化的小模型,利用性能更好的大模型的监督信息,来训练这个小模型,以期达到更好的性能和精度。最早是由Hinton在2015年首次在文章《Distilling the Knowledge in a Neural Network》中提出并应用在分类任务上面,这个复杂模型我们称之为teacher(教师模型),小模型我们称之为Student(学生模型)。
2024-10-10 16:30:04
1571
原创 Model-based RL&动态规划(基于价值、基于策略,泛化迭代)
对于马尔可夫决策过程(MDP),在不知道环境的状态转移函数和奖励函数下(或者是known MDP,但环境太大太复杂无法去使用)就使用无模型的强化学习算法和基于模型的强化学习算法算出最优策略和最优价值函数(控制),或者求出某一策略下的价值函数(预测)。因此,对于上面的问题,不一定让策略评估和策略改进反复交替多次,而是用贝尔曼最优方程,一次性确定各个状态的 Vπ(s),再用这些最优状态值函数Vπ(s)计算动作值函数 Q(s,a) ,最后取Q(s,a)最大的动作,这就是值函数迭代算法。
2024-09-09 16:31:07
1177
原创 强化学习策略更新方法on-policy与off-policy(重要性采样,q-Learning,sarsa)
Off-policy方法的典型例子是:Q-learning,DQN(Deep Q-Networks),DDPG(Deep Deterministic Policy Gradient),SAC(Soft Actor-Critic)等。On-policy方法的典型例子是:REINFORCE算法,Actor-Critic算法,PPO(Proximal Policy Optimization,近端策略优化)算法等。策略更新方法可以分为两类:On-policy(在线策略)和Off-policy(离线策略)。
2024-09-09 10:50:19
1005
原创 RNN发展(RNN/LSTM/GRU/GNMT/transformer/RWKV)
RNN/LSTM/GRU/GMNT/Transformer/RWKV
2024-09-06 14:34:37
1442
原创 语音平台调研
是以D-对话为核心的一站式交互定制平台,覆盖多应用场景和第三方内容资源,内置语音技能库,为物联网、移动互联网和互联网的开发者,提供单项技术服务和一站式对话交互定制解决方案。作为一个全链路智能对话开放平台,DUI提供的,不仅是基于思必驰智能语音语言技术的对话功能,更包括开发者在定制对话系统时所需要的综合服务,如GUI定制、版本管理、私有云部署等,让开发者可以完全依据需求随心所欲定制对话交互系统。两大协议连通起来的对话核心系统、智能设备开放平台和技能开放平台,构成了完整DuerOS的智能生态系统。
2024-08-05 10:45:27
370
原创 RAG调研
检索增强生成(RAG)是一种使用外部知识库辅助文本生成的技术。它结合了检索与生成,通过访问外部数据库检索得到有关的信息,把检索得到的信息与query合并为新的prompt,让LLM从包含外部信息的prompt中学习知识(in-context learning)并生成正确答案。核心步骤(1)检索(Retrieval) (2)增强(Augmentation)(3)生成(Generation)
2024-07-31 11:49:06
1161
原创 NLP数据增强方法
常用的NLP数据增强方法:1、回译2、 同义词替换(SR: Synonyms Replace):不考虑stopwords,在句⼦中随机抽取n个词,然后从同义词词典中随机抽取同义词,并进⾏替换。3、 随机插⼊(RI: Randomly Insert):不考虑stopwords,随机抽取⼀个词,然后在该词的同义词集合中随机选择⼀个,插⼊原句⼦中的随机位置。4、 随机交换(RS: Randomly Swap):句⼦中,随机选择两个词,位置交换。
2024-07-25 18:36:38
1086
原创 AUC理解
一个是ROC曲线的面积另外一个是统计意义。从统计学角度理解,AUC等于随机挑选一个正样本和负样本时,模型对正样本的预测分数大于负样本的预测分数的概率。
2024-07-25 11:39:42
1305
原创 分类常用的评价指标-二分类/多分类
查准率 Precision=TP/(TP+FP)」查全率Recall=TP/(TP+FN)」即为正例被判断为正例的概率TPR=TP/(TP+FN)」即为反例被判断为正例的概率FPR=FP/(TN+FP):ACC = 1-e样本失衡时,如何评价分类器的性能好坏?使用ROC曲线ROC曲线:ROC空间是一个以伪阳性率(FPR,false positive rate)为X轴,真阳性率(TPR, true positive rate)为Y轴的二维坐标系所代表的平面。
2024-07-25 10:38:05
632
原创 音频数据集
下载地址:https://voice.mozilla.org/data时长:1965小时(目前为止)最早2017年发布,持续更新,该基金会表示,通过 Common Voice 网站和移动应用,他们正在积极开展 70 种语言的数据收集工作。Mozilla 宣称其拥有可供使用的最大的人类语音数据集,当前数据集有包括 29 种不同的语言,其中包括汉语,从 4万多名贡献者那里收集了近 2454 小时(其中1965小时已验证)的录音语音数据。
2024-07-17 15:32:28
3595
原创 文本生成指标评估
余弦相似度::::忠实度(即生成的数据样本是否接近原始样本)TransRate::::紧凑度(即每个类的样本是否足够紧凑以进行良好区分)生成的样本与label的紧凑度Z为生成的文本embedding, Y 为label"
2024-07-17 15:10:09
1111
原创 多模态大模型--音频&文本
的目标是,通过减少音频文件的大小来节省存储空间或减轻网络传输的负担。理想的情况下,即使音频被压缩,我们听到的声音与原版也应该没有任何区别。Opus是一个多才多艺的音频编解码器,它适用于各种应用,从视频会议(比如 Google Meet)到在线视频流(比如 YouTube)。Opus支持的压缩比率非常灵活,从每秒6千比特到每秒510千比特都可以。EVS,是由3GPP标准化组织针对移动电话>)开发的最新编解码器。它也支持不同的压缩比率,从每秒5.9千比特到每秒128千比特。
2024-07-17 15:09:56
2031
原创 随机分词与tokenizer(BPE->BBPE->Wordpiece->Unigram->sentencepiece->bytepiece)
随机分词与tokenizer(BPE->BBPE->Wordpiece->Unigram->sentencepiece->bytepiece)
2023-12-08 17:58:01
3552
转载 标准self-attention的几个变种的理解【token对token”是必须的吗】【必须有softmax吗】
在自动摘要这个任务上,标准注意力效果比较好,但是对话生成这个任务上,结果则反过来:标准的自注意力是最差的,Dense(D)和Random(R)是最好的,而当Dense和Random混合了标准的自注意力后(即 D+V 和 R+V),效果也变差了。这说明标准注意力并没有什么“独占鳌头”的优势,而几个Synthesizer看起来是标准注意力的“退化”,但事实上它们互不从属,各有优势。
2023-10-30 17:08:50
856
转载 multihead attention增强表达能力,解决“低秩瓶颈”
第一个结果来自文章《Low-Rank Bottleneck in Multi-head Attention Models》,它明确地指出了Multi-Head Attention里边的表达能力瓶颈,并提出通过增大key_size的方法来缓解这个瓶颈。它能增加Attention的表达能力,并且不改变模型整体的hidden_size,计算量上也只是稍微增加了一点通常Q,K,V分别是对输入矩阵X进行不同W矩阵投影,
2023-10-30 16:52:12
701
原创 大模型LLM相关面试题整理
LLM(Large Language Model,大型语言模型)是指基于大规模数据和参数量的语言模型。具体的架构可以有多种选择,以下是一种常见的大模型LLM的架构介绍:Transformer架构:大模型LLM常使用Transformer架构,它是一种基于自注意力机制的序列模型。Transformer架构由多个编码器层和解码器层组成,每个层都包含多头自注意力机制和前馈神经网络。这种架构可以捕捉长距离的依赖关系和语言结构,适用于处理大规模语言数据。
2023-10-20 14:12:32
5424
原创 怎么让英文大语言模型支持中文?--构建中文tokenization--继续预训练--指令微调
1、使用sentencepiece训练一个中文的词表。2、使用transformers加载sentencepiece模型。3、怎么合并中英文的词表,并使用transformers使用合并后的词表。4、在模型中怎么使用新词表。
2023-10-18 14:48:49
1900
原创 大模型LLM相关面试题整理-训练集-训练经验-微调
综上所述,全参数微调所需的显存量取决于模型的大小、批量大小、训练数据的维度以及训练设备的显存限制。在进行全参数微调之前,建议先评估所需的显存量,并确保训练设备具备足够的显存来支持训练过程。13b的占用大约50G内存,在64G内存上,i9 12900h运行缓慢7b的占用约26G内存,在64G内存上,i9 12900h运行、响应速度还可以,全参数finetune至少需要4倍的数据。
2023-10-17 19:55:35
4063
1
原创 大模型LLM相关面试题整理-PEFT
PEFT(Performance Estimation and Modeling for Fine-Tuning)是一种用于微调任务的性能估计和建模方法。它的目的是帮助研究人员和从业者在微调过程中更好地理解和预测模型的性能,并进行更有效的模型选择和调优。PEFT的主要思想是通过预测模型在微调任务上的性能,提供对不同模型和参数设置的性能估计。这样可以避免在大规模数据集上进行昂贵的微调实验,从而节省时间和计算资源。数据采样:从原始数据集中采样一小部分数据用于性能估计。
2023-10-17 19:40:51
1586
4
原创 大模型LLM相关面试题整理-位置编码-tokenizer-激活函数-layernorm
绝对位置编码是一种用于为序列数据中的每个位置添加绝对位置信息的技术。在自然语言处理中,绝对位置编码常用于处理文本序列,特别是在使用Transformer模型进行序列建模的任务中。在传统的Transformer模型中,位置编码使用了正弦和余弦函数的组合来表示相对位置信息,但它并没有提供绝对位置的信息。这意味着,如果将输入序列的位置进行重新排序或删除/添加元素,模型将无法正确地理解序列的新位置。为了解决这个问题,绝对位置编码被引入到Transformer模型中。
2023-10-17 19:37:10
2046
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人