chenjinxu2003-优快云博客

原创 The Surprising Effectiveness of Test-Time Training for Abstract Reasoning 论文复现报告（二）：实验报告

实验还是挺多的，也是一个熟悉微调大模型的好机会，总之先开始吧。

2024-12-12 19:05:22 744

原创 Learning to (Learn at Test Time): RNNs with Expressive Hidden States 论文阅读

这篇文章也是和TTT相关的(虽然是rnn),我看完一遍之后的感觉就是–类似于上次看的CV领域的那一篇TTT结构的方法–本质上就是用一个辅助模型来帮助主模型处理一些训练集里没有的东西,同时,辅助模型的训练方式也都是自监督学习,在cv里用图像翻转,在nlp里就当然使用字符串遮盖预测了,总之 ,文章链接:https://arxiv.org/pdf/2407.04620。

2024-12-10 19:33:12 968 1

原创 A Simple and Provable Scaling Law for the Test-Time Compute of Large Language Models 论文阅读笔记

这篇论文实际上就是提出了一套流程，在没有提出新的模型架构的情况下用新的计算流程让整个系统准确率能更高，但是有一定的要求（解决问题的LLM一定要能给出正确的答案，如果给出正确答案的概率是0也白搭），然后作者从数学原理上证明了他这套系统在一定情况下能把错误率减到0。这个就好比什么呢，LLM是一个纯黑盒的回答机器，他会根据问题输出答案，但是得出正确答案的概率会变，可能从5%到90%都有可能，所以一般人都不会真正去相信它，因为没有办法让这个玩意给出正确答案的概率升级到99%，这样大家就会相信它了。

2024-12-05 23:25:27 1028 1

原创 Test-Time Training with Self-Supervision for Generalization under Distribution Shifts 论文阅读报告

因为最近都在看TTT相关的文章，所以继续看，这篇的来源是之前看的论文的（放一下链接：https://proceedings.mlr.press/v119/sun20b/sun20b.pdf ）

2024-12-04 17:23:23 807 1

原创 COMBINING INDUCTION AND TRANSDUCTION FOR ABSTRACT REASONING 论文阅读报告

这篇论文提出了一种结合归纳和转导学习策略的数据生成管线，用于解决 few-shot learning 中的抽象推理任务，其创新点在于通过合成大量训练数据来增强模型的学习能力，并采用了一种回退机制，首先尝试归纳学习，若失败则转而使用转导学习，从而有效提高了模型在有限样本情况下的泛化能力和预测准确性。

2024-12-03 20:43:51 1141 1

原创 The Surprising Effectiveness of Test-Time Training for Abstract Reasoning 论文复现报告（一）：论文通读部分

首先是看论文的摘要部分：简单来说，就是说语言模型在很多训练集相关的问题上有令人惊艳的发挥，但是在需要复杂推理的新问题上面就表现的很挣扎。所以本文就调察了使用TTT方法——在ARC数据集作为基准的情况下——能在提升模型的推理能力方面在有多有效。然后介绍了一下TTT：在推理期间使用从输入数据导出的损失临时更新模型参数的一种方法，根据输入数据动态调参。然后作者做完实验之后，发现了让TTT发挥作用的三个关键组成部分：(1) 在相似任务上的初始微调 (2) 辅助任务格式和增强 (3) 对每个实例的训练。

2024-11-30 21:49:20 814

原创强化学习数学原理学习（六）

QAC通过结合Actor的策略更新和Critic的价值更新，引入一种更高效的强化学习机制，使策略能够更快速和更准确地适应环境变化，非常适合于需要快速反馈和实时响应的复杂任务。

2024-11-20 11:41:18 774

原创强学学习数学原理学习（五）

状态值函数V(s): 表示从状态 s 开始并持续遵循策略 π 所能获得的期望总回报。动作值函数Q(s,a): 表示在状态 s 执行动作 a，然后继续遵循策略 π 所能获得的期望总回报。值近似通常涉及使用参数化函数 fθ(s) 或fθ(s,a)，其中 θ 是参数向量，估计值函数或策略。

2024-11-19 15:36:56 407

原创强化学习数学原理学习(四)

今天是时序差分学习。

2024-11-19 15:23:02 923

原创强化学习数学基础学习(三)

这次是蒙特卡洛方法。

2024-10-29 21:37:06 1139

原创强化学习数学原理学习(二)

要来到贝尔曼公式啦。

2024-10-28 22:45:42 438

原创强化学习数学原理学习(一)

总之开始学!

2024-10-26 22:16:19 344

原创机器学习第十一次课

从现在开始进入神经网络的领域了。

2024-06-03 21:49:46 388

原创机器学习第十次课

因为考了一次试,所以没讲太多新东西,唯一的问题是有的知识刚讲完就考了,导致我爆了......

2024-05-25 15:16:54 982

原创机器学习--数学部分笔记

因为周三要考试,所以数学部分写一下笔记。

2024-05-25 14:05:53 315

原创机器学习第九节课

首先KNN是最常用的分类算法之一,他的思想简单来说就是,根据一个东西周围的东西的类别来判断这个东西本身的类别,换句话来说,KNN 的原理就是当预测一个新的值 x 的时候，根据它距离最近的 K 个点是什么类别来判断 x 属于哪个类别。

2024-05-20 18:54:18 635

原创机器学习期中知识点

人是怎么做决策的?显然,我们从经历中学习,不管是自己的还是别人的,然后我们根据这些学习结果做出一个我们人为的最好决策.而机器学习也是如此,它也是从数据中进行学习,我们用眼睛和大脑,机器就用摄像头和计算.所以我们可以做出一个论断,机器学习是:"patterns.”这一章主要讲的有回归任务,线性回归,梯度下降和一些回归的方法上面讲了回归,那显然接下来就是要讲分类了,主要是分以下这几个方面来说,分类器的种类,逻辑回归,逻辑回归和线性回归的区别,逻辑回归的局限性目前貌似就这些,后面再开个数学专题。

2024-05-04 15:35:39 2063

原创 React-Native制作一个通过照片和视频识别鸟类的安卓app

总之这个项目顺利完结了,最终打包的apk也给我的那位朋友了,总之差不多就是这样!!!!

2024-05-02 23:00:50 1201 4

原创机器学习第八次课

开课了,今天会讲点什么呢,先看看首先是机器学习的三步走,第一步是确定函数,第二步是损失函数,第三步就是训练,对应到线性回归,就是确定函数,然后就是MSE,第三步是梯度下降法,先问了个问题.然后问了一个梯度下降的问题,梯度下降是一个用于优化目标函数的算法，常用于机器学习和人工智能中的模型训练。梯度在这里可被理解为导数或者偏导数，它指向了函数值下降最快的方向。在机器学习中，我们经常需要最小化损失函数，而梯度下降就是一种有效的方法。梯度下降的基本步骤是： 1. 首先，选取一个随机的点（也就是参数），作为开始。

2024-04-24 22:43:24 622

原创 react-native开发安卓端app

总之，第一次app开发还是颇废了我一番功夫的，可以说红温了很多次，不过好在最终没有夭折。。。接下来要做点啥好像暂时还没有思路，正在思考我需要点啥中。。。。

2024-04-24 14:46:15 1180 3

原创个人网站开(九)五系统前端react

总之先别急,慢慢来就成。

2024-04-20 14:33:32 1760

原创个人网站开发距离(八)四系统前端

差不多就这些。

2024-04-20 11:35:22 736

原创机器学习第七节课

逻辑回归是一种常用的分类算法，它是机器学习中的一种监督学习方法，用于处理二分类（如是或否、1或0、正或负）或者多分类问题。逻辑回归虽然名字中带有“回归”，但它实际上是解决分类问题的一种方法。它的基本思想是设定一个预测函数（或者说决策函数），通过这个函数将实数空间映射到（0,1）区间，得到一个概率预测值。这个预测函数通常采用sigmoid函数，形式为：f(z) = 1 / (1 + e^(-z))。其中z是模型的预测输入，可以是一些特征向量的线性组合。

2024-04-20 11:09:32 804

原创机器学习--第六次课

梯度是什么,是一阶导数,也就是斜率,沿着梯度的方向就是函数增大最快的方向,所以其反方向就是减小最快的方向,而步长就是所在方向和梯度方向的点乘,

2024-04-17 19:11:41 351

原创个人网站开发记录（七）——三系统后端nodejs+express

虽然我大概不需要这么好的防御，但是无所谓，没关系的，搞一个这个也挺有意思的。。。

2024-04-10 10:24:31 466 1

原创个人网站开发记录(六)三系统前端vite+js+antd

再接再励,继续肝四系统。

2024-04-07 23:01:03 641 1

原创个人网站开发记录(五)二系统后端nodejs

对的,这就是我们二系统,前端都是调用的别人的api()

2024-04-02 08:03:36 166

原创个人网站开发记录(四)二系统前端vite+ts+ant

二系统前端其实感觉还挺少的就是说......毕竟只做了两天,就草草完成开坑三系统了......

2024-04-01 18:33:38 631

原创个人网站开发记录(三)一系统后端nodejs+express+mysql

后端搭建,技术栈nodejs+express+mysql

2024-03-31 09:58:53 690

原创个人网站开发(二)子系统:一系统前端开发vue3+elementplus

一系统的前端部分差不多能说的就这些,其实在这期间没有遇到太多的坑就是了.....

2024-03-30 23:48:53 779 1

原创个人网站开发记录(一)服务器和域名

我这段时间一直在做个人网站的开发,目前已经做了两个系统了,突然想到,为什么不记录一下这之间踩到的坑呢?这样以后遇到对应的问题也能解决了!所以决定慢慢写这个,对了我的个人网站网址是:chenjinxu.top,欢迎访问.

2024-03-30 23:17:01 218 1

原创机器学习--第五次课

首先是对上一节课的一些问题,然后是ROC,受试者工作特征,真正例率实际山就是recall，真正例率（true positive rate, TPR）和假正例率（false positive rate, FPR）。这两个值是来自混淆矩阵的几个重要值，被广泛用在ROC曲线（Receiver Operating Characteristic curve）的绘制中。1. 真正例率 (TPR)：也被称为灵敏度，召回率或命中率，它衡量的是分类器预测为正例的正例占所有真实正例的比例。

2024-03-27 23:37:52 308