
阅读笔记
文章平均质量分 89
ZedKingCarry
成长中……
展开
-
【Kimi帮我看论文(四)】TransE:Translating Embeddings for Modeling Multi-relational Data
TransE是一种新颖的知识库嵌入方法,它通过将关系视为实体嵌入向量间的平移来建模多关系数据。这种方法在参数数量上更为精简,易于训练,且在大规模数据集上表现出色。尽管TransE在处理某些特定类型的三元关系时可能存在局限性,但其在多关系数据建模领域显示出巨大的潜力,并为未来的研究提供了新的方向。原创 2024-03-13 09:40:15 · 1381 阅读 · 0 评论 -
【标准化流在文本上的应用(一)】Continuous Language Generative Flow
这篇论文提出了一种新的基于流的语言生成模型,该模型在连续潜在空间中处理离散语言数据,并在多个下游任务中展示了其有效性。通过非自回归和自回归变体,该模型在密度估计、问题生成、机器翻译和问答数据增强方面均取得了显著的改进。尽管在非自回归生成质量方面仍有提升空间,但该研究为自然语言生成领域提供了有价值的新视角。原创 2024-03-11 10:45:27 · 989 阅读 · 0 评论 -
【阅读笔记】Chain of LoRA
Chain of LoRA (COLA) 是一种新的微调框架,它通过迭代优化和残差学习来提高大型语言模型在特定任务上的性能。与现有的LoRA方法相比,COLA在不增加计算成本的情况下,能够实现更好的泛化性能。通过实验验证,COLA在多个模型和任务上都显示出了其有效性,并为未来的研究提供了新的方向。原创 2024-01-11 22:22:11 · 1488 阅读 · 0 评论 -
【持续学习系列(八)】《Continual Learning Through Synaptic Intelligence》
论文通过引入智能突触的概念,提出了一种新的持续学习方法,该方法通过让每个突触估计其对解决过去任务的重要性,并惩罚变化最重要的突触,从而在不断变化的数据分布中实现新任务的学习,同时最小化对旧任务的遗忘。实验结果表明,这种方法在多个数据集上都表现出了良好的性能,为解决灾难性遗忘问题提供了一种新的视角。原创 2024-01-05 20:11:07 · 1355 阅读 · 0 评论 -
【持续学习系列(七)】Gradient Episodic Memory for Continual Learning
论文提出了一个名为GEM的模型来解决持续学习中的灾难性遗忘问题,并在实验中展示了其有效性。GEM通过使用情节记忆来最小化对旧任务性能的负面影响,并允许有益的知识传递。尽管GEM在实验中表现出色,但仍有改进的空间,特别是在利用任务描述符、记忆管理和计算效率方面。原创 2024-01-05 17:59:17 · 1342 阅读 · 0 评论 -
【持续学习系列(六)】《iCaRL》
iCaRL是一种新的训练策略,它允许在类增量学习环境中同时学习分类器和数据表示。通过使用最近均值样本规则、基于放牧的优先样本选择和知识蒸馏,iCaRL能够在长时间内增量学习多个类别,而其他方法很快就会失败。尽管如此,作者认为类增量分类仍然是一个开放的研究领域,特别是在提高性能和探索隐私敏感的应用方面。原创 2024-01-05 15:51:07 · 698 阅读 · 0 评论 -
【持续学习系列(五)】《Progressive Neural Networks》
渐进式神经网络是一种新型的模型架构,它通过保留预训练模型的池并通过侧向连接提取新任务的有用特征来解决灾难性遗忘问题。这种网络在多个强化学习领域进行了广泛的评估,并显示出在不破坏之前学习的功能的情况下进行有效迁移学习的能力。论文还提出了一种新的分析方法,用于详细分析任务间转移的发生方式和位置。尽管存在参数数量增长的问题,但论文提出了可能的解决方案,并指出了未来工作的方向。原创 2024-01-05 15:34:51 · 1903 阅读 · 0 评论 -
【持续学习系列(四)】《Lifelong-RL》
论文提出了一种新的算法Lifelong-RL,用于在意见挖掘中区分实体和方面。通过结合松弛标签算法和终身机器学习,该方法在实验中表现出色,显著提高了目标分类的准确性。这项工作为意见挖掘领域提供了一种新的思路和方法。原创 2023-12-28 16:15:36 · 840 阅读 · 0 评论 -
【持续学习系列(三)】《Less-forgetting Learning in Deep Neural Networks》
这篇论文提出了一种新的学习策略,旨在减少深度神经网络在学习新数据时对之前学到的信息的遗忘。通过实验验证,这种方法在保持源域特征空间方面比传统的迁移学习方法更有效,并且能够提高网络的泛化性能。原创 2023-12-28 15:53:58 · 1097 阅读 · 0 评论 -
【阅读笔记】LoRAHub:Efficient Cross-Task Generalization via Dynamic LoRA Composition
Experiments:Flan-T5->BBH benchmark->与few-shot ICL相比效果相当->减少了推理时间->gradient free减少计算开销。原创 2023-12-27 22:47:22 · 1538 阅读 · 2 评论 -
【Kimi帮我看论文(二)】脑机信号与语言模型的共同之处
这篇论文通过行为和神经实验证据,揭示了人类大脑和自回归DLMs在处理自然语言时共享的三个核心计算原则。这些发现支持了一个统一的建模框架,用于研究语言的神经基础,并为理解人类大脑如何处理语言提供了新的视角。原创 2023-12-27 19:56:55 · 996 阅读 · 0 评论 -
【持续学习系列(二)】2015_ACL_LCS
这篇论文提出了一种新的终身学习方法来解决情感分类问题。通过模仿人类学习过程,保留并利用过去任务的知识来帮助未来学习,论文展示了终身学习在情感分类任务中的有效性。通过实验验证,该方法在多个产品领域的情感分类任务中表现出色,为终身学习领域提供了新的研究方向。原创 2023-12-26 09:51:07 · 838 阅读 · 0 评论 -
[持续学习系列(一)] 1995_JNC_Pseudorehearsal
论文通过实验和理论分析,提出了解决神经网络中灾难性遗忘问题的新方法,特别是“扫视复习”和“伪复习”机制。这些方法允许在不干扰旧信息的情况下将新信息整合到现有网络中,具有实际应用的潜力。尽管如此,论文也指出了这些方法在网络架构和训练策略方面的局限性,并提出了未来研究的方向。原创 2023-12-26 09:42:54 · 1012 阅读 · 0 评论 -
【Kimi帮我看论文(二)】Parameter-Efficient Fine-Tuning Methods for Pretrained Language Models—Survey
论文提供了对PEFT方法的全面分析和回顾,识别了关键技术和方法,并将它们分类为不同的微调方法。通过广泛的实验,论文评估了这些方法在参数效率和内存效率方面的表现,并揭示了未来研究的潜在方向。这些研究为研究人员和实践者在面对LLMs带来的挑战和机遇时提供了宝贵的资源。原创 2023-12-25 15:29:34 · 1418 阅读 · 0 评论 -
【Kimi帮我读论文】《LlaMaVAE: Guiding Large Language Model Generation via Continuous Latent Sentence Spaces》
论文提出了LlaMaVAE模型,旨在通过VAE架构和INN来提升LLMs的文本生成控制能力。通过实验验证了模型的有效性,并指出了未来研究的可能方向,包括探索更大的LLMs和更多样化的INN架构。原创 2023-12-25 15:16:28 · 990 阅读 · 0 评论 -
[论文阅读笔记] TRACE: A Comprehensive Benchmark for Continual Learning In Large Language Models
现有的评估标准在全面评估LLMs时存在不足,要么因为标准过于简单,要么忽视了关键能力,如遵循指令和安全性。为了解决这个问题,我们引入了一个名为TRACE的综合性评估标准,该标准包含多样化的挑战性任务和全面的评估指标。我们的实验显示了LLMs面临的真实挑战,特别是在持续学习过程中它们一般能力的明显下降。同时,我们的增强推理的持续学习(RCL)方法凸显了在训练中使用推理的重要性,尽管这并不是一个完整的解决方案。我们相信这个领域非常重要,希望我们的工作为未来的研究奠定了坚实的基础。原创 2023-12-22 23:57:00 · 1436 阅读 · 0 评论 -
【论文阅读笔记】MultiLoRA: Democratizing LoRA For Better Multi-Task Learning
本文介绍了MultiLoRA,通过改善LoRA奇异值分解不均匀的问题,提高LoRA在多任务领域的性能表现。本文通过多个LoRA连加并且引入可训练的系数因子改变LoRA中B矩阵的初始化方式提高性能表现。通过多个空间特征的热力图对比,证明了方法的有效性。原创 2023-11-27 21:37:45 · 1644 阅读 · 0 评论 -
【论文阅读笔记】Continual Diffision: Continual Customization of Text-to-Image Diffusion with C-LoRA
本文介绍了C-LoRA,在文生图持续学习问题中通过将多个LoRA正则化以减少灾难性损失的方法。原创 2023-11-27 11:50:19 · 723 阅读 · 0 评论 -
【文献阅读】“ChatGPT: Jack of all trades, master of none”
OpenAI 发布了 Chat Generative Pre-trained Transformer (ChatGPT),彻底改变了人工智能与人机交互的方法。它具有在各个领域提供详细和准确答案的能力。有几篇关于 ChatGPT 评估的工作测试了它在自然语言处理 (NLP) 任务上的有效性。然而,现有的研究大多是非自动化的,并且只在非常有限的范围内进行了测试。翻译 2023-03-08 15:27:44 · 1743 阅读 · 6 评论 -
【论文阅读】CCT5: A Code-Change-Oriented Pre-Trained Model
本文提出了一个专门为代码更改设计的预训练模型,以便更好地支持开发人员进行软件维护。为此,我们首先收集了一个包含150万+代码更改和提交消息的成对数据的大规模数据集。基于这些数据,我们进行策划五个不同的预训练任务,使模型具备关于代码更改的不同领域知识。我们在三个被广泛研究的任务上对预训练模型CCT5进行微调代码变更和两个特定于代码审查过程的任务。结果表明,CCT5在这些任务上优于传统的深度学习方法和现有的预训练模型。原创 2023-04-20 09:56:16 · 329 阅读 · 0 评论 -
【论文精读笔记】O-LoRA: Orthogonal Subspace Learning for Language Model Continual Learning
O-LoRA阅读笔记,EMNLP2023复旦大学工作。介绍了一种O-LoRA方法,将多个LoRA块正交放置,通过限制LoRA块中A矩阵的正交性(矩阵运算为0)减少不同任务之间的干扰从而解决持续学习中的灾难性遗忘问题。原创 2023-11-24 10:12:47 · 1716 阅读 · 0 评论