- 博客(29)
- 收藏
- 关注
转载 PPO、GRPO、DAPO
公式(3)是时间拆分误差(Temporal Difference Error, TD Error)的数学表达式,常用于强化学习(Reinforcement Learning)中的值函数更新(如 TD-Learning 或 TD(λ) 算法)。详细解释如下:以一个例子来理解TD ErrorGRPO对PPO的改进如下:1)消除值函数,以组相对的方式计算优势(①为一个Prompt生成多个输出序列,②为这些输出序列打分,③计算这些序列分值的均值、标准差,④做归一化即得到每个序列的优势。);2)将kl散度相应的内容加
2025-04-05 17:41:44
10
原创 为什么F1值可以用作为衡量类别不平衡任务的重要指标?
F1值、f1值、Precision精确率、Recall召回率、样本不平衡、TP、TN、FP、FN
2023-06-28 16:31:09
1848
原创 Cross-Modal Complementary Network with Hierarchical Fusion for Multimodal Sentiment Classification
多模态情感分析
2023-04-11 20:25:42
470
原创 huggingface中BertModel和BertForPreTraining的区别
BertModel与BertForPreTraining的区别
2022-11-12 14:39:20
1107
3
原创 MultiSentiNet: A Deep Semantic Network for MultimodalSentiment Analysis(CCF B)
使用图像对象特征和场景特征指导文本特征向量的生成,最终求得了较好的性能。
2022-11-08 10:58:32
969
原创 Image-Text Interaction Network(CCF B)
本篇文章重点关注图像和文本信息的对齐工作,在MVSA-S和MVSA-M数据集上达到了SOTA
2022-11-06 16:35:18
4060
16
原创 A Co-Memory Network for Multimodal Sentiment Analysis
首次使用co-memory来提升多模态情感分析的性能,达到了当时的SOTA效果
2022-11-05 19:17:22
1208
2
原创 Fusion-Extraction Networkfor Multimodal Sentiment Analysis(CCF C类)
使用的数据集是来自twitter的MVSA-Single和MVSA-Multiple。与CoMN相比,FENet网络结构是用细粒度的注意力机制达到了当时的SOTA
2022-11-05 16:45:47
1880
转载 Cross Domain,Domain Adaptation,Domain Generalization概念的解释
Cross Domain,Domain Adaptation,Domain Generalization概念解释
2022-10-08 19:14:17
1917
1
原创 Cross-Modal Prompt Tuning
本篇清华刘知远组提出的CPT模型是在多模态的图像端使用prompt技术的首个工作,经过大量的实验表明,该方法取得了好的zero-shot和few-shot性能,在全数据上的性能也超越了普通的微调方法。
2022-10-06 21:49:59
791
原创 Visual Prompt Tuning
对于大量的识别任务来说,最准确的结果是通过对在大量原始数据上预训练的大型基础模型进行调整获得的,然而在实际中,使这些大型的模型去适应下游任务有其自身的挑战。这种方法是不可行的,特别是对于哪些基于transformer的结构,比如ViT-H有6亿多的参数,ResNet-50有25M的参数。在下游任务训练期间,该方法会冻结预训练的transformer backbone,通过引入少量的特定于任务的可学习的参数到输入空间来实现和full fine-tune相当甚至是超过全微调的性能。使用验证集来选择超参数。
2022-10-06 13:43:18
3417
原创 GPT Understands,Too
1.本文的背景 GPT之前只能做文本生成任务,不能做文本理解任务。通过提出的P-tuning方法,使用可以训练的连续提示embeddings,在NLU任务上可以达到和同等规模BERT相当的性能,甚至更好。2.本文的贡献 文章的贡献(1)在NLU任务上,使用P-tuning的GPT可以取得和BERT相当的效果。意味着GPT结构在NLU任务中的潜力被低估了。(2)P-tuning是一种通用的方法来提升BERT和GPT在小样本和全监督数据设置中的性能。并且使用P-tuni...
2022-04-07 18:57:46
1517
原创 The Power of Scale for Parameter-Efficient Prompt Tuning及prefix tuning与prompt tuning的区别
1.本文贡献(1)提出prompt tuning,并在大型语言模型领域展示其与model tuning(fine tuning)的竞争力;(2)减少了许多设计选择,显示质量和鲁棒性随着规模的增加而提高。(3)在域转移问题上,显示prompt tuning优于model tuning。(4)提出“prompt ensembling”,并展示其有效性。2.Prompt tuning 在GPT-3中,提示标记P={p1,p2,…,pn}的表示是模型embedding ta...
2022-04-04 15:09:55
3982
5
原创 Prefix-Tuning: Optimizing Continuous Prompts for Generation
1.本文提出了Prefix-Tuning,一种轻量级的自然语言生成任务的fine-tune替代方案,使语言模型参数保持冻结状态,但是优化了一个小的连续的特定于任务的向量(这个向量称之为前缀)。2.adapter-tuning是在预训练模型的层之间插入额外的特定于任务的层。只添加了2%-4%的任务参数。3.GPT-3的in-context learning或者prompting,即在任务输入中预先准备自然语言任务指令和一些示例,然后从LM输出。3.问题描述:(1)假设有一个基于Tra...
2022-04-04 15:08:17
3042
2
原创 Learning to Prompt for Vision-Language Models
1.问题背景识别正确的提示(识别精度尽可能高的提示),通常需要花费非常多的时间来进行单词的调整,在单词中的一个轻微改变都可以使得在性能上有巨大的不同。但是可以发现即使是做了大量的调整,最后的精度可能不是最优的。受到NLP领域中prompt learning研究的启发,本文提出了Context Optimization(CoOp),具体来说固定整个预训练模型的参数,然后对text encoder中的提示词进行学习,自动化提示工程。对于一个新的类别分类任务来说,一个描述与任务相关的...
2022-04-04 15:07:16
6599
原创 Zero-shot learning,Few-shot learning简单理解
Zero-shot learning,Few-shot learning
2022-03-11 19:39:46
1714
原创 批量归一化
批量规范化(batch normalization)[Ioffe & Szegedy, 2015],这是一种流行且有效的技术,可持续加速深层网络的收敛速度。再结合残差块,批量规范化使得研究人员能够训练100层以上的网络。...
2022-02-25 09:11:45
1392
原创 卷积神经网路
1.两个原则平移不变性,假设要找的目标位于左上未虚化的框里,如果目标在其他地方出现,那么所具有的特征应是一样。也就是说同样的分类器可以应用在别的地方找相同的目标。分类器不会因图片像素位置的变化而变化。 局部性,找目标时,不需要看太多的内容,只需看附近的内容即可,只需要局部信息即可。...
2022-02-16 17:28:51
1089
原创 数值稳定性
目录1.数值稳定性常见的两个问题2.让训练更加稳定1.数值稳定性常见的两个问题梯度爆炸与梯度消失梯度爆炸问题梯度消失梯度消失问题总结2.让训练更加稳定2.1 如何使用合理的权重初始化和激活函数想法一:将每层的输出和梯度都看成随机变量,让他们的均值和方法保持一致。如下图例子,接下来探索什么样的条件可以满足上诉要求。例如下面MLP例子,下面来看反向所以满足以下两个条件,但是两个条件很难同时满足。...
2022-02-09 21:27:31
2036
原创 实用机器学习第二章
2.2 数据清理1.数据处理思维导图2.数据错误的几种类型(1)outlier指的是一个样本的某一个特征值违背了该特征值的分布,如下图所示,这里用房子类型和每平米房子的价格来展示outlier。SingleFamily为正确的类型,而Single Family和Single Family Lot都是错误的取值,应把空格和Lot删掉,然后就可以并入到第一行了。出错的房子类别就可以归为OutLiers。接下来可以删除OutLiers的值或者手动进行更改。...
2022-01-23 15:19:21
1030
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人