柳安忆-优快云博客

原创 [GLM-4.6V 多模态能力测评】对论文pipeline图的理解能力 #视觉理解MCP、#GLM我的编码搭子

正在写论文综述的时候看到GLM开发者群有GLM-4.6V 多模态能力测评的活动，刚好利用本次活动试用一下GLM-4.6V。

2025-12-10 16:08:51 917

原创【论文阅读】谷歌2025最新代码生成论文：AlphaEvolve阅读

设计一个好的评价体系可以不停进行迭代针对同一问题可以采用不同的方法作为起点长上下文作为主要进化提示的一部分。这个提示由从程序数据库中采样的多个先前发现的解决方案以及系统指示如何提议更改特定解决方案组成。其实这个就是one shot，而且长上下文确实有用消化有关先前已开发解决方案的信息，并提出新颖、多样的方法来改进这些解决方案这个相当于他的idea生成基座模型性能越强，任务完成的越好他设计一个从易到难的小评测集，迅速剔除劣质解评估采用并行化的方法多目标优化里。

2025-12-01 09:38:23 812

原创【CNCC参会整理】大模型的因果推论

探究因果使用的就是控制变量法潜在因果变量：改变一个干预变量（自变量）产生的结果个体~：对于一个人产生效应平均~：平均所有人产生的效应反事实问题：比如我昨天吃了药吃好了，我就观察不到昨天不吃药带来的结果（最理想的方案是有一个平行世界，但是没有，目前的方法是随机试验）

2025-11-27 15:03:55 239

原创【论文阅读与项目复现】Hypothesis Generation with Large Language Models

研究人员主要依靠 painstaking 的数据分析与思考（即所谓的“欧几里得时刻”）来驱动假设的产生。在本文中，我们探讨了大规模语言模型（LLMs）在假设生成方面的潜力，尤其关注基于数据（即带标签的示例）的假设生成任务。为了使 LLMs 能够处理长文本上下文，我们首先从少量示例中生成初始假设，随后通过迭代更新逐步提升假设的质量。受多臂老虎机问题启发，我们设计了一种奖励函数，用以指导更新过程中的利用与探索权衡。

2025-11-09 16:21:17 1064

原创【论文阅读】MOOSE-Chem2: Exploring LLM Limitsin Fine-Grained Scientific Hypothesis Discoveryvia Hierarchic

合成分级3D铜”“将铜箔浸泡于0.5 M过硫酸铵与2 M氢氧化钠的混合溶液中，室温下处理15分钟，即可生成具有五边形分级结构的CuO纳米材料。给定一个研究背景——包括研究问题和对现有方法的综述——以及一个粗粒度的假设方向，生成一个细粒度的假设。如何最佳地运用大语言模型内部的启发式机制，以制定出它自身会判断为最具潜力的细粒度假设——而这正是其可能生成的所有假设中最有前景的一个？一个简单的基线方法是在奖励景观上进行贪婪搜索。然而，由于其非凸且复杂的结构，这种朴素的贪婪策略容易陷入次优的局部最优解。

2025-11-08 13:34:16 656

原创【教程】claude code windows版安装和免费api

可以参考这两个流程，比较详细。

2025-10-29 16:47:46 189

原创 idea生成数据集调研

该数据集包含约5500个结构化的问题-假设配对，均摘自顶级计算机科学会议。从NeurIPS 2023（3218篇论文）和ICLR 2024（2260篇论文）这两场顶级计算机科学会议中被录用的论文中整理出数据集，最终得到5478个独特样本。随后，采用OpenAI的o1模型进行结构化提取步骤。对于每篇论文，我们首先从摘要中提取Bit、Flip和Spark三个关键要素，并引导o1模型识别其中的传统假设、创新方法，以及核心洞见的精炼4至6字概括。

2025-10-13 22:54:34 758

原创【论文阅读】Sparks of Science

生成新颖且富有创意的科学假设，是实现通用人工智能的核心基石。大型语言与推理模型有望助力系统化地创建、筛选和验证基于科学依据的假设。然而，当前的基础模型往往难以产出既新颖又可行的科学构想。其中一个原因，便是缺乏专门的数据集，无法将科学假设生成（SHG）任务视作自然语言生成（NLG）任务来处理。为此，本文首次提出了HypoGen数据集——该数据集包含约5500组结构化的问题-假设配对，均摘自顶级计算机科学会议，并采用“比特翻转-灵感火花”框架进行组织：其中，“比特”代表传统假设，“灵感火花”则是核心。

2025-10-13 22:54:02 980

原创训练的时候开启enable_float16会影响训练最后的rank-1吗

混合精度训练(enable_float16)通常不会影响最终rank-1准确率，反而能显著提升训练速度和减少显存占用。其核心在于巧妙结合FP16和FP32的优势：用FP16加速计算和节省显存，同时在FP32中完成关键的梯度更新以避免精度损失。现代框架会自动处理梯度缩放等关键环节，确保训练稳定性。多数情况下，混合精度与纯FP32训练结果几乎相同，有时甚至能因增大批次而略有提升。建议在实际任务中进行对比测试验证效果。

2025-09-11 16:57:22 553

原创【阅读笔记】面向开发者的 LLM 入门课程

对话摘要缓存储存，使用 LLM 对到目前为止历史对话自动总结摘要，并将其保存下来。LangChian tool 函数装饰器可以应用用于任何函数，将函数转化为LangChain 工具，使其成为代理可调用的工具。我们需要给函数加上非常详细的文档字符串, 使得代理知道在什么情况下、如何使用该函数/工具。reasoning = False # 设置 content 不输出 think 块# 嵌入模型（新增）

2025-09-11 16:55:04 976

原创【项目复现】MOOSE-Chem 用于重新发现未见化学科学假说的大型语言模型

ZonglinY/MOOSE-Chem: [ICLR 2025] --- ZonglinY/MOOSE-Chem: [ICLR 2025] https://github.com/ZonglinY/MOOSE-Chem同步地址如下：QianPengfei1/MOOSE-Chem: [ICLR 2025] <MOOSE-Chem: Large Language Models for Rediscovering Unseen Chemistry Scientific Hypotheses>如何同步：1.(

2025-09-09 15:13:18 733

原创某比赛AI应用部署的思路记录（主要为项目部署）

准备选取电子病历诊疗大模型。大模型需要调用两个api，目前的工作是看能不能将api换成本地侧部署。

2025-07-31 21:36:29 944

原创持续学习入门笔记

需要识别新数据。灾难性遗忘。模型学习了新的知识之后，几乎彻底遗忘掉之前训练的内容。Task-IL：任务增量学习，无论是训练阶段还是测试阶段，模型都被告知了当前的任务ID。Domain-IL：相较于Task-IL在测试阶段增加了新的限制，即在预测阶段并不会告知任务的ID。模型需要在不知道任务ID的情况下，将数据正确的分类。Class-IL：新的类别不断地到来，模型需要正确地将输入分类到其对应地类别当中去。

2025-07-02 16:17:54 1057

原创大模型AI4S综述阅读—— From Automation to Autonomy: A Survey on Large Language Models in Scientific Discovery

在研究的最后阶段，LLMs可以对实验得出的主张和结论提供反馈或验证。

2025-06-27 21:14:57 1404

原创【步态识别】GaitCSV（Causal Intervention for Sparse-View Gait Recognition）论文阅读

实验室环境视角又全又固定，真实环境数据集视角随机，稀疏视角训练误导了模型。正面视角下的“肩宽”和侧面视角下的“步长”是跨视角识别中的无效特征0°和90°视角的差异本来就很大。

2025-04-18 20:52:01 1310 1

原创【说话人日志】快速跑通项目实战—3D-Speaker说话人分离

快速跑通项目实战—3D-Speaker说话人分离

2025-03-27 11:07:50 3276 3

原创【步态识别】论文阅读 Parsing is All You Need for Accurate Gait Recognition in the Wild

因为二值轮廓或2D/3D关键点的信息熵过低，无法有效编码行走过程中人体的形状和动态。因此，有必要探索一种具有更高信息熵的表示方法，以用于野外步态识别。尽管这些方法在广泛使用的实验室步态识别数据集（如CASIA-B和OU-MVLP）上取得了成功，但在最近的野外数据集（如GREW和Gait3D）上表现不佳。这也是由于二值轮廓的信息熵过低，仅包含整个身体的全局轮廓，而缺乏细粒度身体部位的细节。因此，我们旨在通过部位级步态表示来建模行走过程中细粒度身体部位的形状和动态。

2025-03-18 11:41:40 996 1

原创【分裂阵波束合成】分裂阵波束合成理论

能够提供阵增益和目标方位估计，是声呐系统用于测向的主要方法。不同应用实例是根据各自应用需求对相位差信息进行后置处理，提取满足声呐使用需求的特征信息。方法是 2 种高分辨率的分裂阵波束形成方法，其共同点是，不同点在于对左右波束形成的处理。

2025-03-18 10:25:50 1149

原创基阵理论基础——常见阵列与均匀线列阵（UniformLinearArray，ULA）

常见阵列与均匀线列阵（UniformLinearArray，ULA）

2025-02-26 22:03:20 2578

原创【说话人日志】说话人日志实验指标日志错误率（DER）、Jaccard错误率（JER）和拼接最小排列词错误率（cpWER）是什么

说话人日志实验指标日志错误率（DER）、Jaccard错误率（JER）和拼接最小排列词错误率（cpWER）是什么

2025-02-25 09:47:37 1786

原创【说话人日志】说话人日志（分割）综述与研究进展

说话人日志（分割）综述与研究进展

2025-02-24 09:38:28 2518

原创【说话人日志】《3D-Speaker-Toolkit: An Open-Source Toolkit forMultimodal Speaker》阿里通义多模态说话人开源项目3D-Speaker

该项目由阿里通义团队开源，提供解决“谁在何时说话纯音频说话人日志：由多个模块组成，包括重叠检测（可选）、语音活动检测、语音分段、说话人特征提取和说话人聚类。多模态说话人日志：融合音频和视频图像输入以生成更精确的结果。项目github链接视频介绍论文地址我们介绍了3D-Speaker-Toolkit，一个开源的多模态说话人验证和日志工具包，旨在满足学术研究者和工业从业者的需求。3D-Speaker-Toolkit巧妙地结合了音频、语义和视觉数据的优势，无缝融合这些模态以提供强大的说话人识别能力。

2025-02-23 13:34:47 1867

原创【说话人分离】多说话人分离基础知识—鸡尾酒会问题

本文介绍了多说话人分离的基础知识—鸡尾酒会效应

2025-02-20 16:03:12 878

柳安忆的博客