- 博客(10)
- 收藏
- 关注
原创 论文学习(四):Reflective Multi-Agent Collaboration based on Large Language Models
本文做的工作主要有:1.通过反事实PPO机制训练了一个共享反思器。反事实奖励缓解了不同agent的信用分配问题。共享反思器不仅能够个性化反思,还能够减少计算资源和提高训练稳定性2.提出的COPPER框架在三个开源数据集上,反思能力都超过基准该博客对论文的解读可能涉及博主的个人看法,目的也主要是为了博主的自我梳理,这里对可能造成的困惑和不满道歉,如有侵权请联系我😄。
2025-03-28 17:50:50
830
1
原创 论文学习(三):When Can LLMs Actually Correct Their Own Mistakes? A Critical Survey of Self-Correction
为了确定LLMs可以在哪些条件下自我纠正错误,从而对自我纠正的批判性调查,在调查过程中发现许多研究未能清楚地定义其研究问题或适当地设计实验,于是作者团队分类归纳出了三个问题,以及对应的框架,并提出了进行合适实验的要求清单。
2024-12-15 16:03:10
883
原创 论文学习(二):Deductive Beam Search: Decoding Deducible Rationale for Chain-of-Thought Reasoning
最后总结一下,这篇文章其实比较简单,就是为了解决CoT中间步骤中的推理错误,提出了一个综合CoT与逐步骤束搜索的演绎束搜索方法,并微调了一个演绎验证器对每个推理步骤进行评分;然后提出了一种可扩展且无需人工的数据构建方法,然后最后就是实验表明,这种方法在不同模型规模和多样化的推理任务中都有效。
2024-11-16 16:00:50
1121
1
原创 论文学习(一):Evaluating the Adversarial Robustness of Retrieval-Based In-Context Learning for LLMs
2.作者简介。
2024-10-22 13:33:24
1037
原创 简单网页爬虫(java)
当然这只是最最最简单的一个实现,可以看到在程序中我们连捕捉到的异常都没有进行处理,只是将其打印了出来,还有性能等其他方面都还差很远,这只是一个简单的尝试和体验,理解大概的算法思路😀。差不多(也可以理解和树地层序遍历思想差不多),先访问一个网址涉及到的所有网址,并将他们添加到待访问地数组中,循环遍历所有网址(在这里我们设计让他访问了100个网址就停止访问)创建两个数组,一个数组存取已经访问过的网址,一个数组存取准备访问地网址,大概的思想和。1.爬虫入口(如何从用户输入的网址抵达其他网址)
2024-05-30 18:25:03
769
7
原创 随身小记(闲笔)
1. 首先IDE的运行是以该工程为单位的,当工程中的任意一个源代码文件出问题,该工程都是无法运行的,所以不难理解IDE的相对路径是要相对于当前工程的一级目录(很合理的设计)(而非相对于src中某一个源文件的路径)2.而若是对一个.java文件进行编译运行,相当于当前工程是只包含了该java文件的一个工程,故其相对路径是相对于当前的.java文件的路径。
2024-05-23 16:23:08
271
1
原创 堆排序(简洁易懂)---C++
我们最后对我们的堆排序进行测试-------int main()return 0;结果如下:数组递增,排序完成,测试成功!------堆排序,堆的创建,堆的向下调整
2024-03-16 16:23:05
865
2
原创 赫夫曼编码----(C++)
在谈论赫夫曼编码之前,首先要搞清楚一些概念1.WPL:树的带权路径长度,WPL=即各个叶结点的权值与其路径长度乘积的求和2.权值:事先给定的一些数据,其相对大小可用于表示频率3.赫夫曼树(最优二叉树):WPL最小的二叉树,特点:没有度为1的结点(与其构造过程有关)4.前缀编码:任何一个字符的编码都不是另一个字符的前缀,(如若设计A的编码为‘0’,而B的编码为‘00’,则无法判断‘00’是表示B还是表示AA),于是我们可以想到用二叉树实现前缀编码。
2024-02-29 17:56:17
1140
2
原创 二叉树的遍历——非递归(栈实现)
1.对于前序遍历和中序遍历,我们可以看到它们的代码非常的相似,区别在于前序遍历是在结点入栈的时候打印数据;而中序遍历是在结点出栈的时候打印数据。2.对于后序遍历,则需要判断当前结点的右子树是否遍历完全,分而治之的进行讨论。
2024-02-26 17:53:30
813
4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人