自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(97)
  • 收藏
  • 关注

原创 ChatAnyone: Stylized Real-time Portrait Video Generation with Hierarchical Motion Diffusion Model

实时交互式视频聊天肖像越来越被认为是未来趋势,这主要得益于文本和语音聊天技术的显著进步。然而,现有的方法主要集中于实时生成头部动作,但难以产生与头部动作同步的身体动作。此外,实现对说话风格和面部表情细微差别的精细控制仍然是一个挑战。为了解决这些局限性,我们提出了一种新颖的样式化实时肖像视频生成框架,它能够实现从头部说话到上半身交互的表达丰富和灵活的视频聊天。我们的方法包括以下两个阶段。

2025-04-01 14:59:35 761

原创 【每日论文】Optimal Stepsize for Diffusion Sampling

扩散模型取得了显著的生成质量,但由于步长离散化不够理想,其采样过程计算量巨大。虽然现有工作侧重于优化去噪方向,但我们关注的是步长调度方案的原则性设计。本文提出了一种名为“最优步长蒸馏”的动态规划框架,该框架通过从参考轨迹中提取知识来获得理论上最优的调度方案。通过将步长优化重新表述为递归误差最小化问题,我们的方法利用最优子结构来保证全局离散化界限。至关重要的是,蒸馏出的调度方案在架构、ODE 求解器和噪声调度方面都表现出很强的鲁棒性。

2025-04-01 14:57:49 632

原创 【每日论文】BizGen: Advancing Article-level Visual Text Rendering for Infographics Generation

近期,诸如Flux和Ideogram 2.0等最先进的文本到图像生成模型在句子级视觉文本渲染方面取得了显著进展。在本论文中,我们关注更具挑战性的文章级视觉文本渲染场景,并针对基于用户提供的文章级描述提示和超密集布局生成高质量商业内容(包括信息图表和幻灯片)这一新颖任务进行探讨。基本挑战有两方面:一是显著更长的上下文长度,二是高质量商业内容数据的稀缺。与大多数仅关注有限子区域和句子级提示的先前工作相比,确保商业内容中数十个甚至数百个子区域的超密集布局的精确遵循要困难得多。

2025-03-30 10:15:00 1006

原创 【每日论文】Wan: Open and Advanced Large-Scale Video Generative Models

本报告介绍了Wan,一套全面且开放的视频基础模型套件,旨在推动视频生成的界限。Wan基于主流的扩散变压器范式构建,通过一系列创新,包括我们新颖的变分自编码器(VAE)、可扩展的预训练策略、大规模数据整理和自动评估指标,在生成能力上取得了显著进步。这些贡献共同提升了模型的表现力和多功能性。具体来说,Wan具有以下四个关键特性: 1. 领先性能:Wan的14B模型在包含数十亿图像和视频的庞大数据集上训练,展示了视频生成在数据和模型规模方面的扩展规律。

2025-03-30 08:30:00 746

原创 【每日论文】Unconditional Priors Matter! Improving Conditional Generation of Fine-Tuned Diffusion Models

无分类器引导(CFG)是训练条件扩散模型的基本技术。基于CFG的训练常见做法是使用单个网络学习条件和无条件的噪声预测,条件部分使用较小的dropout率。然而,我们观察到,在训练中将无条件噪声与有限带宽的联合学习导致无条件情况下的先验质量较差。更重要的是,这些较差的无条件噪声预测成为降低条件生成质量的一个严重原因。受到大多数基于CFG的条件模型是通过微调具有更好无条件生成的基模型进行训练的启发,我们首先表明,仅用基模型预测的无条件噪声替换CFG中的无条件噪声可以显著提高条件生成。

2025-03-29 08:00:00 707

原创 【每日论文】ViLBench: A Suite for Vision-Language Process Reward Modeling

过程监督奖励模型作为一种精细粒度的功能,为模型响应提供详细的步骤反馈,有助于有效选择复杂任务的推理轨迹。尽管它具有优势,但在PRM上的评估仍然相对较少,尤其是在多模态领域。为了填补这一空白,本文首先在多个视觉-语言基准上对当前的视觉大语言模型(VLLMs)进行了基准测试,将其作为两种类型的奖励模型:输出奖励模型(ORMs)和过程奖励模型(PRMs),发现ORM和PRM在所有任务上并不总是优于其他模型,而且性能优异的VLLMs也不一定带来更好的奖励性能。

2025-03-29 07:00:00 737

原创 【每日论文】DINeMo: Learning Neural Mesh Models with no 3D Annotations

层级3D/6D姿态估计是实现全面3D场景理解的关键步骤,它将使机器人和具身人工智能领域广泛的应用成为可能。近期的研究探讨了从合成分析的角度来处理一系列2D和3D任务的神经网络网格模型。尽管这些方法在很大程度上增强了对抗部分遮挡和领域转移的鲁棒性,但它们在很大程度上依赖于3D标注来进行部分对比学习,这限制了它们只能应用于有限的类别,并阻碍了高效的扩展。在本工作中,我们提出了DINeMo,这是一种新的神经网络网格模型,它通过利用从大型视觉基础模型中获得的重构对应关系进行训练,而无需3D标注。

2025-03-28 17:45:45 895

原创 【每日论文】Qwen2.5-Omni Technical Report

在本报告中,我们介绍了Qwen2.5-Omni,这是一个端到端的多模态模型,旨在感知多种模态,包括文本、图像、音频和视频,并同时以流式方式生成文本和自然语音响应。为了实现多模态信息输入的流式传输,音频和视觉编码器都采用了分块处理方法。为了同步视频输入的时戳与音频,我们将音频和视频以交错的方式依次组织,并提出了一种名为TMRoPE(时间对齐多模态RoPE)的新型位置嵌入方法。为了同时生成文本和语音,避免两种模态之间的干扰,我们提出了Thinker-Talker架构。

2025-03-28 17:44:07 747

原创 【每日论文】Think Twice: Enhancing LLM Reasoning by Scaling Multi-round Test-time Thinking

近期,大型语言模型(LLMs)如OpenAI-o1和DeepSeek-R1在测试时缩放方面的最新进展,展示了扩展推理过程显著提升模型性能的有效性。尽管如此,当前模型在处理长文本和强化学习(RL)训练效率方面仍存在限制。为了解决这些问题,我们提出了一种简单而有效的方法——多轮思考。这种方法通过利用先前答案作为后续轮次的提示,迭代地优化模型推理。

2025-03-27 09:27:33 940

原创 【每日论文】ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning

大型语言模型(LLMs)在推理方面展现出卓越的能力,例如OpenAI-o1和DeepSeek-R1的成功。然而,将推理与外部搜索过程相结合仍然具有挑战性,尤其是在需要多个检索步骤的复杂多跳问题中。我们提出了一种名为ReSearch的新框架,通过强化学习训练LLMs进行搜索推理,而不使用任何关于推理步骤的监督数据。我们的方法将搜索操作视为推理链的组成部分,何时以及如何进行搜索由基于文本的思考指导,而搜索结果随后影响进一步的推理。

2025-03-27 09:24:25 843

原创 【每日论文】MetaSpatial: Reinforcing 3D Spatial Reasoning in VLMs for the Metaverse

我们推出MetaSpatial,这是第一个基于强化学习(RL)的框架,旨在提升视觉-语言模型(VLMs)中的3D空间推理能力,使得无需硬编码优化即可实现实时3D场景生成。MetaSpatial解决了两大核心挑战:(一)VLMs缺乏内化的3D空间推理能力,这限制了它们生成逼真布局的能力;(二)传统的监督微调(SFT)对于布局生成任务效率低下,因为缺乏完美的地面真实标注。我们的关键创新是多轮RL优化机制,它集成了物理感知约束和渲染图像评估,确保生成的3D布局在逻辑上连贯、在物理上合理、在美学上一致。

2025-03-26 18:34:21 1092

原创 【每日论文】Diffusion-4K: Ultra-High-Resolution Image Synthesis with Latent Diffusion Models

在这篇论文中,我们提出了Diffusion-4K,这是一种基于文本到图像扩散模型的直接超高清图像合成的创新框架。其核心进展包括:(1)美学-4K基准:针对目前缺乏公开的4K图像合成数据集的问题,我们构建了Aesthetic-4K,一个用于超高清图像生成的全面基准。我们精心挑选了由GPT-4o生成的图像和标题,构建了一个高质量的4K数据集。此外,我们引入了GLCM分数和压缩比指标来评估细微细节,并结合FID、美学和CLIPScore等整体指标,对超高清图像进行全面评估。

2025-03-26 18:31:51 962

原创 【每日论文】CLS-RL: Image Classification with Rule-Based Reinforcement Learning

分类是机器学习中的核心任务。近期的研究表明,尽管多模态大型语言模型(MLLMs)在图像分类方面起初表现不佳,但通过使用适量的数据进行微调,可以显著提升其性能,使其与最先进的分类模型相媲美。然而,获取大规模标注数据成本高昂。在本文中,我们探讨了小样本MLLM分类微调。我们发现,微调(SFT)可能导致严重的过拟合问题,甚至可能比零样本方法降低性能。为了应对这一挑战,受最近基于规则的强化学习成功案例的启发,我们提出了CLS-RL,它使用可验证的信号作为奖励来微调MLLMs。

2025-03-25 13:45:24 1149

原创 【每日论文】Zero-1-to-A: Zero-Shot One Image to Animatable Head Avatars Using Video Diffusion

可动画的头像生成通常需要大量的训练数据。为了减少数据需求,一个自然的解决方案是利用现有的无数据静态头像生成方法,例如使用预训练的扩散模型和分数蒸馏采样(SDS),这些方法将头像与扩散模型的伪真实输出对齐。然而,直接从视频扩散中蒸馏4D头像往往会导致过度平滑的结果,因为生成的视频中存在空间和时间上的不一致性。为了解决这个问题,我们提出了Zero-1-to-A,这是一种鲁棒的方法,它使用视频扩散模型合成用于4D头像重建的空间和时间一致性数据集。

2025-03-25 13:41:23 1265

原创 【每日论文】SALT: Singular Value Adaptation with Low-Rank Transformation

医学图像分割的复杂性质要求设计专门用于捕捉详细、特定领域特征的模型。大型基础模型提供了相当大的灵活性,但微调这些模型的成本仍然是一个重大的障碍。参数高效微调(PEFT)方法,如低秩适应(LoRA),通过低秩矩阵高效更新模型权重,但在选择的秩不足以捕捉领域特定细微差别时可能会出现欠拟合。相反,基于全秩奇异值分解(SVD)的方法通过修改所有奇异值提供全面的更新,但它们通常缺乏灵活性,并在数据集之间表现出可变的表现。

2025-03-24 09:20:15 796

原创 【每日论文】1000+ FPS 4D Gaussian Splatting for Dynamic Scene Rendering

四维高斯 splatting (4DGS) 近年来作为一种重建动态场景的方法受到了广泛关注。尽管4DGS取得了优异的质量,但它通常需要大量的存储空间并且渲染速度缓慢。在这项工作中,我们深入研究了这些问题,并确定了时间冗余的两个主要来源。(Q1) 短寿命高斯:4DGS 使用大量具有短时间跨度的高斯函数来表示场景动态,导致高斯函数数量过多。(Q2) 非活动高斯:渲染时,只有一小部分高斯函数会对每一帧产生贡献。尽管如此,在光栅化过程中仍会处理所有高斯函数,从而导致冗余计算开销。

2025-03-24 09:17:27 1123

原创 【每日论文】Frac-Connections: Fractional Extension of Hyper-Connections

残差连接是现代深度学习架构的核心,通过缓解梯度消失问题,使得非常深的网络得以训练。超连接最近通过在不同深度引入多个连接强度,推广了残差连接,从而解决了梯度消失和表示崩溃之间的跷跷板效应。然而,超连接通过扩展隐藏状态宽度增加了内存访问成本。在本文中,我们提出了分数连接(Frac-Connections),这是一种新颖的方法,它将隐藏状态分成多个部分,而不是扩展其宽度。分数连接保留了超连接的部分优势,同时减少了内存消耗。

2025-03-23 14:30:00 667

原创 【每日论文】Impossible Videos

如今,合成视频被广泛用于补充现实世界视频数据的稀缺性和多样性。当前的合成数据集主要复制现实世界场景,而对不可能、反事实和反现实视频概念探索不足。本研究旨在回答两个问题:1)当今的视频生成模型能否有效遵循提示来创建不可能的视频内容?2)当今的视频理解模型是否足够好以理解不可能的视频?为此,我们引入了IPV-Bench,这是一个旨在评估和促进视频理解和生成进步的新颖基准。IPV-Bench基于一个综合的分类法,包含4个领域、14个类别。它包含违反物理、生物、地理或社会法则的多样场景。

2025-03-23 11:15:00 1596

原创 【每日论文】Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM

创造力是智慧的一个基本方面,涉及在多种情境下产生新颖且恰当解决方案的能力。虽然大型语言模型(LLMs)在创意能力方面已被广泛评估,但在此领域对多模态大型语言模型(MLLMs)的评估仍基本未涉足。为了填补这一空白,我们引入了Creation-MMBench,这是一个专门为评估MLLMs在现实世界、基于图像的任务中的创意能力而设计的多模态基准。基准包含765个测试案例,涵盖了51个细粒度任务。为确保严格评估,我们对每个测试案例定义了特定实例的评估标准,引导了对一般响应质量和与视觉输入的事实一致性的评估。

2025-03-22 10:00:00 241

原创 【每日论文】Cosmos-Transfer1: Conditional World Generation with Adaptive Multimodal Control

我们引入了Cosmos-Transfer,这是一个条件世界生成模型,能够根据多种空间控制输入生成世界模拟,这些输入包括分割、深度和边缘等不同模态。在设计上,空间条件方案是自适应和可定制的。它允许在不同空间位置对不同的条件输入进行不同的加权。这使得世界生成具有高度可控性,并在各种世界到世界的迁移用例中找到应用,包括Sim2Real。我们对所提出的模型进行了广泛的评估,以分析其应用,包括物理AI、机器人Sim2Real和自动驾驶车辆数据丰富化。

2025-03-22 09:00:00 853

原创 【每日论文】LEGION: Learning to Ground and Explain for Synthetic Image Detection

生成技术的快速发展宛如一把双刃剑。它一方面提供了强大的工具,提升了便利性,另一方面也引发了重大的社会问题。作为防御者,目前合成图像检测方法通常缺乏对伪造痕迹级别的文本可解释性,并且过于专注于图像篡改检测,而现有数据集往往受到过时生成器和缺乏细粒度注释的限制。在本篇论文中,我们引入了SynthScars,这是一个高质量且多样化的数据集,包含12,236张由人类专家标注的全合成图像。它具有4种不同的图像内容类型,3类伪造痕迹,以及细粒度注释,涵盖了像素级分割、详细的文本解释和伪造痕迹类别标签。

2025-03-21 14:02:13 1052

原创 【每日论文】MetaLadder: Ascending Mathematical Solution Quality via Analogical-Problem Reasoning Transfer

大型语言模型(LLMs)在解决数学推理任务方面展现出有前景的能力,利用思维链(CoT)数据作为引导答案生成的关键组成部分。当前的范式通常直接为给定问题生成CoT和答案,这在一定程度上偏离了人类解决问题的策略。人类通常通过回忆类似案例并利用这些解决方案来推理当前任务。受此认知过程的启发,我们提出了MetaLadder,一个新颖的框架,该框架明确提示LLMs在解决目标问题之前,回忆并反思元问题,即结构上或语义上类似的问题,以及它们的CoT解决方案。

2025-03-21 14:00:01 1049

原创 【每日论文】Temporal Consistency for LLM Reasoning Process Error Identification

验证对于有效的数学推理至关重要。我们提出了一种新的时间一致性方法,其中验证者根据之前的评估迭代地细化他们的判断。与单轮验证或多模型辩论方法不同,我们的方法利用了一系列自我反思动作中的连贯性来提高验证的准确性。在多个数学过程错误识别基准(Mathcheck、ProcessBench和PRM800K)上的实证评估显示,与基线方法相比,我们的方法表现出一致的性能提升。

2025-03-20 15:47:31 474

原创 【每日论文】Measuring AI Ability to Complete Long Tasks

尽管在人工智能基准测试上取得了快速进展,但基准性能在现实世界中的意义仍然不明确。为了将人工智能系统的能力量化为人类能力,我们提出了一种新的指标:50%-任务完成时间范围。这是人类通常完成任务所需的时间,而人工智能模型可以以50%的成功率完成这些任务。我们首先对具有相关领域专业知识的人类在RE-Bench、HCAST和66个新型较短的任务组合上进行了计时。在这些任务上,当前前沿的人工智能模型如Claude 3.7 Sonnet的50%时间范围大约为50分钟。

2025-03-20 15:39:57 991

原创 【每日论文】DreamRenderer: Taming Multi-Instance Attribute Control in Large-Scale Text-to-Image Models

图像条件生成方法,如深度和Canny条件方法,在精确图像合成方面展现了显著的能力。然而,现有的模型在精确控制多个实例(或区域)的内容方面仍然面临挑战。即使是像FLUX和3DIS这样的最先进模型,也面临着诸如实例之间的属性泄漏等挑战,这限制了用户的控制能力。为了解决这些问题,我们引入了DreamRenderer,这是一种基于FLUX模型的无需训练的方法。DreamRenderer使用边界框或掩码使用户能够控制每个实例的内容,同时确保整体视觉和谐。

2025-03-19 18:59:48 811

原创 【每日论文】Rewards Are Enough for Fast Photo-Realistic Text-to-image Generation

将生成的图像与复杂的文本提示和人类偏好对齐是人工智能生成内容 (AIGC) 的核心挑战。随着奖励增强扩散蒸馏作为一种提高文本到图像模型可控性和保真度的方法而出现,我们发现了一种根本性的范式转变:随着条件变得越具体,奖励信号越强,奖励本身就成为生成中的主导力量。相比之下,扩散损失则成为一种过于昂贵的正则化形式。为了彻底验证我们的假设,我们引入了 R0,这是一种通过正则化奖励最大化实现的新型条件生成方法。

2025-03-19 18:58:08 608

原创 【每日论文】New Trends for Modern Machine Translation with Large Reasoning Models

近年来,大型推理模型(LRMs)的进展,尤其是那些利用思维链推理(CoT)的模型,为机器翻译(MT)开辟了全新的可能性。这篇立场论文认为,LRMs通过将翻译重新定义为一种需要语境、文化和语言理解和推理的动态推理任务,极大地改变了传统的神经机器翻译以及基于LLMs的MT范式。我们确定了三个基础性的转变:1)语境连贯性,LRMs通过显式地跨句和复杂语境甚至无语境的推理来消除歧义并保持话语结构;2)文化意图性,使模型能够通过推断说话人意图、受众期望和社会语言规范来调整输出;

2025-03-18 11:03:34 1612

原创 【每日论文】Do I look like a `cat.n.01` to you? A Taxonomy Image Generation Benchmark

本文提出了一种用于分类学图像生成的基准,评估了文本到图像模型在理解分类学概念和生成相关、高质量图像方面的能力。

2025-03-18 10:55:34 459

原创 【每日论文】VisualPRM: An Effective Process Reward Model for Multimodal Reasoning

我们推出了视觉PRM,这是一个具有80亿参数的高级多模态过程奖励模型(PRM),它提高了现有多模态大型语言模型(MLLMs)在不同模型规模和家族中的推理能力,并采用最佳N(BoN)评估策略。具体来说,我们的模型提升了三种类型MLLMs以及四种不同规模的模型推理性能。即便应用在高度发达的InternVL2.5-78B模型上,它在七个多模态推理基准测试中实现了5.9分的提升。实验结果表明,在BoN评估中,我们的模型相较于结果奖励模型和自洽性模型表现出更优异的性能。

2025-03-17 08:56:34 879

原创 【每日论文】“Silent Is Not Actually Silent“: An Investigation of Toxicity on Bug Report Discussion

这篇论文通过定性分析GitHub上的203个bug讨论线程,揭示了bug报告中的毒性问题及其对软件开发协作的影响,并提出了减轻毒性的建议。

2025-03-17 08:54:46 298

原创 【每日论文】AI-native Memory 2.0: Second Me

人类与外部世界的互动本质上涉及个人记忆的交换,无论是与其他个人、网站、应用程序,还是未来与AI代理的交互。其中很大一部分交互是重复的,需要用户在不同情境中反复提供相同的信息。现有的解决方案,如浏览器存储的凭据、自动填充机制和统一认证系统,旨在通过充当存储和检索常用用户数据的中间件来减轻这种重复性。大型语言模型(LLMs)的出现为通过AI原生范式重新定义记忆管理提供了机会:SECOND ME。SECOND ME充当一个智能的、持久的记忆卸载系统,保留、组织和动态利用用户特定的知识。

2025-03-13 09:52:55 666

原创 【每日论文】Referring to Any Person

本文提出了一个新的任务“指代任意人”,并构建了一个名为HumanRef的大型数据集和一个名为RexSeek的多模态大型语言模型,有效地解决了现有模型在处理多实例指代和现实世界应用中面临的挑战。

2025-03-13 09:50:31 878

原创 【每日论文】EasyControl: Adding Efficient and Flexible Control for Diffusion Transformer

近期,基于Unet的扩散模型,如ControlNet和IP-Adapter,在空间和主题控制机制方面取得了显著进展。然而,DiT(扩散Transformer)架构在高效和灵活的控制方面仍存在挑战。为了解决这一问题,我们提出了EasyControl,这是一个新型框架,旨在将条件引导的扩散Transformer与高效性和灵活性相结合。我们的框架基于三个关键创新。首先,我们引入了一个轻量级的条件注入LoRA模块。该模块独立处理条件信号,充当即插即用的解决方案。

2025-03-12 09:41:13 875

原创 【每日论文】Taking Notes Brings Focus? Towards Multi-Turn Multimodal Dialogue Learning

本文提出了一种名为DiagNote的多模态对话学习模型,通过模拟人类视觉处理过程,提高了多模态对话中视觉和语言信息的融合与推理能力。

2025-03-12 09:39:07 406

原创 【每日论文】Unified Reward Model for Multimodal Understanding and Generation

本文提出了UNIFIEDREWARD,一个用于多模态理解和生成评估的统一奖励模型,通过联合学习不同视觉任务,显著提高了模型在不同领域的性能。

2025-03-11 09:18:06 384

原创 【每日论文】Forgetting Transformer: Softmax Attention with a Forget Gate

提出了一种名为“遗忘Transformer”(FoX)的新型Transformer变体,通过引入遗忘门机制,在长上下文语言建模、长度外推和短上下文下游任务中优于Transformer,同时保持了Transformer的长上下文检索能力。

2025-03-11 09:15:36 858

原创 【每日论文】On the Acquisition of Shared Grammatical Representations in Bilingual Language Models

跨语言迁移对于当代语言模型的多种语言能力至关重要,但其发生过程却不太为人所知。在本文中,我们探讨当单语语言模型开始学习第二种语言时会发生什么。具体来说,我们训练了小型双语模型,并对每个语言的数据量以及语言接触的顺序进行控制。为了寻找共享的多语言表示的证据,我们转向结构启动这一方法,它被用于研究人类的语法表示。我们首先复制了之前关于跨语言结构启动的结果,并发现经过控制训练数据量和语言接触后,语言对之间存在不对称效应,以及方向上的不对称。我们认为这种不对称性可能会塑造关于人类结构启动效应的假设。

2025-03-10 15:14:02 324

原创 【每日论文】How to Steer LLM Latents for Hallucination Detection?

LLM 中的幻觉问题对其在现实世界应用中的安全部署构成了重大担忧。近期的方法利用了 LLM 的潜在空间进行幻觉检测,但它们的嵌入优化的是语言连贯性而非事实准确性,往往无法清晰地区分真实内容和幻觉内容。为此,我们提出了真实性分隔向量(TSV),这是一种轻量级且灵活的引导向量,它能够在推理过程中重塑 LLM 的表示空间,以增强真实和幻觉输出的分离,而不会改变模型参数。我们的两阶段框架首先在少量标记示例集上训练 TSV,以形成紧凑且分离良好的聚类。

2025-03-10 15:12:14 794

原创 【每日论文】Discrete-Time Hybrid Automata Learning: Legged Locomotion Meets Skateboarding

该论文提出了一种名为DHAL(离散时间混合自动机学习)的框架,利用在线强化学习来识别和执行模式切换,无需轨迹分割或事件函数学习,以实现四足机器人滑板运动的精确控制和模式识别。

2025-03-09 08:00:00 295

原创 【每日论文】HoT: Highlighted Chain of Thought for Referencing Supporting Facts from Inputs

该论文提出了一种名为“高亮思维链提示”(HoT)的技术,通过在LLM的回答中添加XML标签来标记事实,从而提高LLM回答的准确性和可验证性。

2025-03-08 12:45:00 362

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除