
论文复现
文章平均质量分 92
chenjinxu2003
简单写点
展开
-
The Surprising Effectiveness of Test-Time Training for Abstract Reasoning 论文复现报告(二):实验报告
实验还是挺多的,也是一个熟悉微调大模型的好机会,总之先开始吧。原创 2024-12-12 19:05:22 · 752 阅读 · 0 评论 -
Learning to (Learn at Test Time): RNNs with Expressive Hidden States 论文阅读
这篇文章也是和TTT相关的(虽然是rnn),我看完一遍之后的感觉就是–类似于上次看的CV领域的那一篇TTT结构的方法–本质上就是用一个辅助模型来帮助主模型处理一些训练集里没有的东西,同时,辅助模型的训练方式也都是自监督学习,在cv里用图像翻转,在nlp里就当然使用字符串遮盖预测了,总之 ,文章链接:https://arxiv.org/pdf/2407.04620。原创 2024-12-10 19:33:12 · 997 阅读 · 0 评论 -
A Simple and Provable Scaling Law for the Test-Time Compute of Large Language Models 论文阅读笔记
这篇论文实际上就是提出了一套流程,在没有提出新的模型架构的情况下用新的计算流程让整个系统准确率能更高,但是有一定的要求(解决问题的LLM一定要能给出正确的答案,如果给出正确答案的概率是0也白搭),然后作者从数学原理上证明了他这套系统在一定情况下能把错误率减到0。这个就好比什么呢,LLM是一个纯黑盒的回答机器,他会根据问题输出答案,但是得出正确答案的概率会变,可能从5%到90%都有可能,所以一般人都不会真正去相信它,因为没有办法让这个玩意给出正确答案的概率升级到99%,这样大家就会相信它了。原创 2024-12-05 23:25:27 · 1046 阅读 · 0 评论 -
Test-Time Training with Self-Supervision for Generalization under Distribution Shifts 论文阅读报告
因为最近都在看TTT相关的文章,所以继续看,这篇的来源是之前看的论文的(放一下链接:https://proceedings.mlr.press/v119/sun20b/sun20b.pdf )原创 2024-12-04 17:23:23 · 830 阅读 · 1 评论 -
COMBINING INDUCTION AND TRANSDUCTION FOR ABSTRACT REASONING 论文阅读报告
这篇论文提出了一种结合归纳和转导学习策略的数据生成管线,用于解决 few-shot learning 中的抽象推理任务,其创新点在于通过合成大量训练数据来增强模型的学习能力,并采用了一种回退机制,首先尝试归纳学习,若失败则转而使用转导学习,从而有效提高了模型在有限样本情况下的泛化能力和预测准确性。原创 2024-12-03 20:43:51 · 1159 阅读 · 1 评论 -
The Surprising Effectiveness of Test-Time Training for Abstract Reasoning 论文复现报告(一):论文通读部分
首先是看论文的摘要部分:简单来说,就是说语言模型在很多训练集相关的问题上有令人惊艳的发挥,但是在需要复杂推理的新问题上面就表现的很挣扎。所以本文就调察了使用TTT方法——在ARC数据集作为基准的情况下——能在提升模型的推理能力方面在有多有效。然后介绍了一下TTT:在推理期间使用从输入数据导出的损失临时更新模型参数的一种方法,根据输入数据动态调参。然后作者做完实验之后,发现了让TTT发挥作用的三个关键组成部分:(1) 在相似任务上的初始微调 (2) 辅助任务格式和增强 (3) 对每个实例的训练。原创 2024-11-30 21:49:20 · 845 阅读 · 0 评论