- 博客(49)
- 收藏
- 关注
原创 The Surprising Effectiveness of Test-Time Training for Abstract Reasoning 论文复现报告(二):实验报告
实验还是挺多的,也是一个熟悉微调大模型的好机会,总之先开始吧。
2024-12-12 19:05:22
744
原创 Learning to (Learn at Test Time): RNNs with Expressive Hidden States 论文阅读
这篇文章也是和TTT相关的(虽然是rnn),我看完一遍之后的感觉就是–类似于上次看的CV领域的那一篇TTT结构的方法–本质上就是用一个辅助模型来帮助主模型处理一些训练集里没有的东西,同时,辅助模型的训练方式也都是自监督学习,在cv里用图像翻转,在nlp里就当然使用字符串遮盖预测了,总之 ,文章链接:https://arxiv.org/pdf/2407.04620。
2024-12-10 19:33:12
968
1
原创 A Simple and Provable Scaling Law for the Test-Time Compute of Large Language Models 论文阅读笔记
这篇论文实际上就是提出了一套流程,在没有提出新的模型架构的情况下用新的计算流程让整个系统准确率能更高,但是有一定的要求(解决问题的LLM一定要能给出正确的答案,如果给出正确答案的概率是0也白搭),然后作者从数学原理上证明了他这套系统在一定情况下能把错误率减到0。这个就好比什么呢,LLM是一个纯黑盒的回答机器,他会根据问题输出答案,但是得出正确答案的概率会变,可能从5%到90%都有可能,所以一般人都不会真正去相信它,因为没有办法让这个玩意给出正确答案的概率升级到99%,这样大家就会相信它了。
2024-12-05 23:25:27
1028
1
原创 Test-Time Training with Self-Supervision for Generalization under Distribution Shifts 论文阅读报告
因为最近都在看TTT相关的文章,所以继续看,这篇的来源是之前看的论文的(放一下链接:https://proceedings.mlr.press/v119/sun20b/sun20b.pdf )
2024-12-04 17:23:23
807
1
原创 COMBINING INDUCTION AND TRANSDUCTION FOR ABSTRACT REASONING 论文阅读报告
这篇论文提出了一种结合归纳和转导学习策略的数据生成管线,用于解决 few-shot learning 中的抽象推理任务,其创新点在于通过合成大量训练数据来增强模型的学习能力,并采用了一种回退机制,首先尝试归纳学习,若失败则转而使用转导学习,从而有效提高了模型在有限样本情况下的泛化能力和预测准确性。
2024-12-03 20:43:51
1141
1
原创 The Surprising Effectiveness of Test-Time Training for Abstract Reasoning 论文复现报告(一):论文通读部分
首先是看论文的摘要部分:简单来说,就是说语言模型在很多训练集相关的问题上有令人惊艳的发挥,但是在需要复杂推理的新问题上面就表现的很挣扎。所以本文就调察了使用TTT方法——在ARC数据集作为基准的情况下——能在提升模型的推理能力方面在有多有效。然后介绍了一下TTT:在推理期间使用从输入数据导出的损失临时更新模型参数的一种方法,根据输入数据动态调参。然后作者做完实验之后,发现了让TTT发挥作用的三个关键组成部分:(1) 在相似任务上的初始微调 (2) 辅助任务格式和增强 (3) 对每个实例的训练。
2024-11-30 21:49:20
814
原创 强化学习数学原理学习(六)
QAC通过结合Actor的策略更新和Critic的价值更新,引入一种更高效的强化学习机制,使策略能够更快速和更准确地适应环境变化,非常适合于需要快速反馈和实时响应的复杂任务。
2024-11-20 11:41:18
774
原创 强学学习数学原理学习(五)
状态值函数V(s): 表示从状态 s 开始并持续遵循策略 π 所能获得的期望总回报。动作值函数Q(s,a): 表示在状态 s 执行动作 a,然后继续遵循策略 π 所能获得的期望总回报。值近似通常涉及使用参数化函数 fθ(s) 或fθ(s,a),其中 θ 是参数向量,估计值函数或策略。
2024-11-19 15:36:56
407
原创 机器学习第九节课
首先KNN是最常用的分类算法之一,他的思想简单来说就是,根据一个东西周围的东西的类别来判断这个东西本身的类别,换句话来说,KNN 的原理就是当预测一个新的值 x 的时候,根据它距离最近的 K 个点是什么类别来判断 x 属于哪个类别。
2024-05-20 18:54:18
635
原创 机器学习期中知识点
人是怎么做决策的?显然,我们从经历中学习,不管是自己的还是别人的,然后我们根据这些学习结果做出一个我们人为的最好决策.而机器学习也是如此,它也是从数据中进行学习,我们用眼睛和大脑,机器就用摄像头和计算.所以我们可以做出一个论断,机器学习是:"patterns.”这一章主要讲的有回归任务,线性回归,梯度下降和一些回归的方法上面讲了回归,那显然接下来就是要讲分类了,主要是分以下这几个方面来说,分类器的种类,逻辑回归,逻辑回归和线性回归的区别,逻辑回归的局限性目前貌似就这些,后面再开个数学专题。
2024-05-04 15:35:39
2063
原创 React-Native制作一个通过照片和视频识别鸟类的安卓app
总之这个项目顺利完结了,最终打包的apk也给我的那位朋友了,总之差不多就是这样!!!!
2024-05-02 23:00:50
1201
4
原创 机器学习第八次课
开课了,今天会讲点什么呢,先看看首先是机器学习的三步走,第一步是确定函数,第二步是损失函数,第三步就是训练,对应到线性回归,就是确定函数,然后就是MSE,第三步是梯度下降法,先问了个问题.然后问了一个梯度下降的问题,梯度下降是一个用于优化目标函数的算法,常用于机器学习和人工智能中的模型训练。梯度在这里可被理解为导数或者偏导数,它指向了函数值下降最快的方向。在机器学习中,我们经常需要最小化损失函数,而梯度下降就是一种有效的方法。梯度下降的基本步骤是: 1. 首先,选取一个随机的点(也就是参数),作为开始。
2024-04-24 22:43:24
622
原创 react-native开发安卓端app
总之,第一次app开发还是颇废了我一番功夫的,可以说红温了很多次,不过好在最终没有夭折。。。接下来要做点啥好像暂时还没有思路,正在思考我需要点啥中。。。。
2024-04-24 14:46:15
1180
3
原创 机器学习第七节课
逻辑回归是一种常用的分类算法,它是机器学习中的一种监督学习方法,用于处理二分类(如是或否、1或0、正或负)或者多分类问题。逻辑回归虽然名字中带有“回归”,但它实际上是解决分类问题的一种方法。它的基本思想是设定一个预测函数(或者说决策函数),通过这个函数将实数空间映射到(0,1)区间,得到一个概率预测值。这个预测函数通常采用sigmoid函数,形式为:f(z) = 1 / (1 + e^(-z))。其中z是模型的预测输入,可以是一些特征向量的线性组合。
2024-04-20 11:09:32
804
原创 机器学习--第六次课
梯度是什么,是一阶导数,也就是斜率,沿着梯度的方向就是函数增大最快的方向,所以其反方向就是减小最快的方向,而步长就是所在方向和梯度方向的点乘,
2024-04-17 19:11:41
351
原创 个人网站开发记录(七)——三系统后端nodejs+express
虽然我大概不需要这么好的防御,但是无所谓,没关系的,搞一个这个也挺有意思的。。。
2024-04-10 10:24:31
466
1
原创 个人网站开发记录(四)二系统前端vite+ts+ant
二系统前端其实感觉还挺少的就是说......毕竟只做了两天,就草草完成开坑三系统了......
2024-04-01 18:33:38
631
原创 个人网站开发(二)子系统:一系统前端开发vue3+elementplus
一系统的前端部分差不多能说的就这些,其实在这期间没有遇到太多的坑就是了.....
2024-03-30 23:48:53
779
1
原创 个人网站开发记录(一)服务器和域名
我这段时间一直在做个人网站的开发,目前已经做了两个系统了,突然想到,为什么不记录一下这之间踩到的坑呢?这样以后遇到对应的问题也能解决了!所以决定慢慢写这个,对了我的个人网站网址是:chenjinxu.top,欢迎访问.
2024-03-30 23:17:01
218
1
原创 机器学习--第五次课
首先是对上一节课的一些问题,然后是ROC,受试者工作特征,真正例率实际山就是recall,真正例率(true positive rate, TPR)和假正例率(false positive rate, FPR)。这两个值是来自混淆矩阵的几个重要值,被广泛用在ROC曲线(Receiver Operating Characteristic curve)的绘制中。1. 真正例率 (TPR):也被称为灵敏度,召回率或命中率,它衡量的是分类器预测为正例的正例占所有真实正例的比例。
2024-03-27 23:37:52
308
原创 计算机网络(网络层)
一个自治系统是一个在互联网上有单一管理和技术策略的IP地址集合,由一个或多个网络以及控制这些网络的路由策略组成。AS内部使用内部路由协议,而AS之间则使用外部路由协议。
2023-11-14 20:59:26
181
1
空空如也
react native用expo的云端打包成apk下载到手机无法运行
2024-04-22
TA创建的收藏夹 TA关注的收藏夹
TA关注的人