- 博客(19)
- 收藏
- 关注
原创 论文阅读:Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent Distillation and Agentic RL
《Chain-of-Agents:单模型实现多智能体协作的新范式》提出CoA框架,通过多智能体蒸馏和强化学习将传统多智能体系统(MAS)的协作能力内化到单一语言模型中。相比传统MAS,CoA在GAIA等20余个基准上实现SOTA(如GAIA 55.3%),同时降低84.6%计算开销;相比工具集成推理(TIR)方法,突破单工具限制,支持动态多角色协作。该研究通过数据驱动训练实现复杂协作能力的模型内化,为高效多智能体推理提供新范式。
2025-08-22 20:53:54
961
原创 论文阅读:Agentic Neural Networks: Self-Evolving Multi-Agent Systems via Textual Backpropagation
本文提出Agentic Neural Network (ANN)框架,将多智能体协作类比为神经网络架构。ANN通过前向阶段动态分解任务并组建智能体团队,后向阶段采用文本反馈进行全局和局部优化。实验表明,ANN在代码生成、写作等任务上优于现有方法,具有自适应优化能力。该框架实现了多智能体系统的自动协作与进化,但存在初始依赖人工定义和计算开销问题。未来将探索元提示学习等改进方向。
2025-07-14 20:40:16
548
原创 fatal: 无法访问 ‘https://huggingface.co/datasets/...‘:Failed to connect to huggingface 问题解决
fatal: 无法访问 'https://huggingface.co/datasets/...':Failed to connect to huggingface 问题解决
2025-07-14 19:19:37
294
原创 Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding
研究发现,在基于Transformer架构的大型语言模型(LLMs)中,自注意力模块的查询(Q)和键(K)中会出现集中分布的巨大值,而值(V)中则没有这种模式。这些巨大值对模型的上下文知识理解可能起着关键作用,但其具体作用和形成机制尚不清楚。为了在实际应用中提高模型的效率和可扩展性,需要对模型进行量化,但现有的量化方法在处理这些巨大值时可能会导致性能下降。研究通过实验评估了多种量化方法,发现针对巨大值的量化方法(如AWQ和SmoothQuant)能够更好地保持LLMs的上下文知识理解能力,而忽略巨大值的量化
2025-05-11 20:25:54
411
原创 论文阅读:Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models
区分长短链推理的关键点
2025-04-20 21:24:27
986
1
原创 论文阅读:Reasoning Models Can Be Effective Without Thinking
近年来,大型语言模型(LLMs)在推理任务上的表现显著提升,主要归功于在生成过程中引入了显式的、较长的“思考”过程。为了降低数据污染的风险,我们引入了新发布的AIME 2025,它不太可能出现在现有模型的预训练数据中。重要的是,我们的发现在新旧基准测试中都保持一致,这表明观察到的趋势并非是由于模型对数据的记忆,而是反映了模型的可泛化行为。具体来说,作者们试图回答以下关键问题:在推理任务中,模型是否真的需要通过显式的、长的思考过程来生成高质量的解决方案?值下的pass@k,进一步说明了这些结果。
2025-04-19 20:47:33
878
1
原创 论文阅读:The Multilingual Mind: A Survey of Multilingual Reasoning in Language Models
文章提供了对LMs多语言推理的首次深入讨论,提供了一个系统的概述,概述了将语言模型应用于跨不同语言推理的挑战,动机和基础方面内容。然而,这些模型在处理。4. Cross-Lingual Alignment:模型需要在不同语言之间对齐推理过程,确保推理结果的一致性和连贯性。2. Adaptability :对于低资源语言,模型应能够通过跨语言迁移从高资源语言中学习,并进行稳健的推理。通过特定的提示策略,引导模型动态适应不同语言,解决数据不平衡问题,增强推理的跨语言一致性。时仍面临诸多挑战,如。
2025-04-16 19:03:58
993
1
原创 论文阅读:DAPO: An Open-Source LLM Reinforcement Learning System at Scale
强化学习(RL)是提升LLMs推理能力的核心技术,但目前最先进的推理LLMs(如OpenAI的o1和DeepSeek的R1)的技术细节并未公开,导致难以复现其RL训练结果。为了填补这一空白,作者提出了DAPO算法,并开源了一个基于Qwen2.5-32B模型的RL系统,该系统在AIME 2024竞赛中取得了50分的成绩,超越了DeepSeek-R1-Zero-Qwen-32B的47分。此外,从单个令牌的角度来看,如果特定的生成模式可以导致奖励的增加或减少,则无论其出现的响应的长度如何,它都会同样增加或抑制。
2025-04-16 18:50:48
885
1
原创 模式识别—实验七:K均值聚类算法
均匀选取初始的聚类中心指在1000个样本里均匀选取,如当聚类数目为10时,应该选取的为每一个数字文件夹的第一个数字(由于没有对selected_mnist_data文件夹里的数据进行shuffle),这样可以保证尽可能取到每个数字作为初始聚类中心。欧式距离的平方作为指标比使用曼哈顿距离作为指标得到的误差要小,这说明使用欧式距离的平方作为样本和类中心的相似度的衡量更加合理,得到的聚类效果更好。本实验使用每个数字的1。均匀选取的子类中心随聚类数目的变化,而设定成恒定个数的子类中心,导致结果的错误。
2025-03-24 22:05:41
1002
原创 模式识别—实验六:高维数据的低维可视化
利用概率分布来度量样本间的距离,将高维空间中的欧式距离转化为条件概率密度函数来表示样本间的相似度,保持了样本间的局部结构,使得在高维数据中距离相近的点投影到低维中仍然相近。,利用概率分布来度量样本间的距离,将高维空间中的欧式距离转化为条件概率密度函数来表示样本间的相似度,保持了样本间的局部结构,使得在高维数据中距离相近的点投影到低维中仍然相近。MDS虽然为非线性降维,但使用欧式距离作为度量,由于欧氏距离在流形上全局不成立,在处理高维的流形时,同样降维的效果不好,投影得到的结果是一个卷的形状。
2025-03-18 21:26:52
781
原创 模式识别—实验五:决策树、随机森林以及集成学习
一、实验任务(后附决策树、随机森林以及集成学习的代码)问题描述:数据集:毒蘑菇数据集,总样本数为8124,其中可食用有4208样本,占51.8%;有毒的样本为3916,占48.2%。每个样本描述了蘑菇的16个非数值型特征属性,如菌盖形状(cap-shape)、菌盖颜色(cap-color)等。实验的主要任务是使用不同的分类方法对蘑菇进行分类,从而得到蘑菇判断模型,更好的判断蘑菇是否可食用。 2.实验内容:内容一:决策树分类。分别使用两种不同度量标准:信息增益和信息增益率.
2025-03-05 20:56:19
823
原创 模式识别—实验四:利用支持向量机对手写数字进行分类
在同样的测试集中,使用高斯核函数的准确率大于使用线性核函数的准确率。在本次实验中我们主要实现了利用支持向量机对mnist数据集进行分类的任务,加深了对支持向量机的基本原理和工作方式的了解,掌握如何选择参数来实现使用不同核函数进行SVM分类,包括线性核函数和非线性核函数(高斯核),尝试使用网格搜索算法来选择最佳的SVM超参数,包括惩罚参数C和核函数的参数。时,可以看到选择合适的参数对模型的准确率有巨大的影响,当参数不合适时,模型的准确率一直维持在一个较低的水平,当选取的参数合适时,准确率有巨大的增幅。
2025-03-03 21:19:08
786
原创 模式识别—实验三:Fisher线性判别分析
比较了自己实现的LDA方法和调用LDA类的函数的方法在可视化和准确率上的区别,可以直观看到降维后的两者都有一个区分度,但是在特征的尺度和数值上却有所不同,同时在一维和二维上准确率也均低于scikit-learn的LDA。线性判别分析(LDA)是一种基于监督学习的降维方法,在二分类问题上,最早由Fisher于1936年提出,也称为Fisher判别分析, 对于一组具有标签信息的高维数据样本,LDA利用其类别信息,将其线性投影到。图片:分别调用sklearn中的LDA和自己实现的LDA进行降维后的结果图。
2025-03-03 21:07:58
1926
原创 操作系统——fork实验
当此程序运行时,在系统中有一个父进程和两个子进程活动。让每个进程在屏幕上显示一个字符,父进程显示“a”;子进程2显示“c”。多运行几次,观察并分析显示结果。如果在父进程fork之前,输出一句话,这句话后面不加“\n”或加“\n”,结果有什么不同,为什么?如果在程序中使用系统调用lockf来给临界资源加锁,可以实现临界资源的互斥访问。修改程序,将每个进程输出一个字符改为每个进程输出一句话,观察分析显示结果;5. 以上各种情况都多运行几次,观察每次运行结果是否都一致?将一条输出语句变成多条输出语句试试;
2025-02-26 19:42:50
221
原创 模式识别—实验二:概率密度估计的非参数方法
高斯窗函数产生平滑的估计图,适用于光滑分布的数据,而方窗函数产生具有更多波动和尖锐峰值的估计图,适用于非光滑或包含局部特性的数据分布。除此之外,在实现Parzen窗法时,我比较了自己编写的Parzen函数和调用的函数结果的区别,可以看到图四和图五结果近乎相同,图二和图三的结果有细微差别,可能是由于窗函数的编写不同导致的。最近邻估计法中,可以看到样本数量较小的概率密度图中有更多的噪声和异常值,样本数量越大,估计的概率密度函数通常更接近真实数据分布,估计的准确性更高。,以控制估计的平滑度和精确度。
2025-02-26 19:28:25
1721
原创 E: Failed to fetch http://security.ubuntu.com/ubuntu/pool/main/v/vim/vim-runtime_8.1.2269-1ubuntu5.1
注意vi不太好用,在i编辑模式下,上下左右移动键也会被当成命令输入。在安装vim时遇到报错,在网上搜索解决办法,亲测有效。3.再次输入命令,下载vim就好啦。使用vi进入界面,添加。保存退出,再更新apt。
2023-09-05 10:58:39
893
1
原创 怎样以管理员身份运行msi安装程序
3.运行msiexec /package XXX.msi(文件名)1.以管理员身份打开cmd。2.找到msi文件所在位置。
2023-07-17 18:05:11
5266
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅