- 博客(150)
- 资源 (2)
- 收藏
- 关注
原创 IGR-SR: 序列推荐中的意图引导推理
本文提出了一种基于意图引导的序列推荐模型IGR-SR,通过显式提取用户意图来增强推理过程的稳定性和泛化能力。模型包含三个核心组件:潜在意图蒸馏器(LID)提取高层意图,意图感知审慎推理机(IDR)进行双阶段推理,以及意图一致性正则化(ICR)提升鲁棒性。实验表明,IGR-SR在多个数据集上显著优于基线模型,尤其在噪声场景下展现出更强的稳定性,验证了意图引导对推荐系统推理过程的重要性。
2026-01-05 18:29:33
861
原创 Diff-Unmix:将扩散模型从高光谱图像转移到丰度空间
本文围绕 Diff-Unmix 在高光谱图像去噪任务中的整体设计思路,对其方法动机、关键模块与实验表现进行了梳理。与传统低秩或子空间方法主要关注数值压缩不同,Diff-Unmix 的核心贡献在于将扩散模型嵌入具有物理语义约束的中间表示之中,而非直接作用于原始高光谱图像本身。在这一框架下,高光谱去噪被拆解为两个层次的问题:一是通过谱解混构造结构稳定的表示空间,二是在该空间内对丰度分布进行受控的生成式修复。
2025-12-29 18:20:22
601
原创 [AAAI 2025 深度解读] 拒绝盲猜:当 CLIP 大模型被引入 3D 点云补全
这篇 AAAI 2025 的工作为我们展示了极简文本:证明了不需要复杂的 LLM,简单的 Prompt 就能激活语义。几何先验:证明了 6 视图投影 + 分块机制 是解决 2D-3D 空间对齐的高效手段对开发者的启示拥抱多模态:纯几何的深度学习已接近天花板,引入 Image/Text/Video 等跨模态信息是突破瓶颈的关键。关注对齐技术:如何将 2D 基础模型的强大能力无损地迁移到 3D 任务(即解决 Position-Aware 问题),将是未来两年的核心研究热点。
2025-12-22 18:24:53
661
原创 (ICLR-2024)TIME‑LLM:基于大语言模型重编程的时间序列预测
TIME-LLM 提出了一种无需微调大语言模型主体、即可用于时间序列预测的全新框架。通过将时间序列片段重编程为一组可被 LLM 理解的“文本原型”,并结合包含数据背景、任务指令与统计特征的 Prompt-as-Prefix 提示结构,模型成功激活了 LLM 的跨模态推理能力。实验表明,TIME-LLM 在长期、短期、少样本与零样本预测任务中均显著超越现有专用时间序列模型,在效率上又极其轻量,为构建通用、跨领域的时序预测模型提供了新的范式。
2025-12-14 13:34:09
965
原创 IEEE TCSS 2025 | MBIDR: 基于意图解耦的多行为推荐,精准捕获用户细粒度兴趣
这篇论文通过多行为推荐中行为与意图不匹配,导致偏好建模失真和噪声干扰的问题。主要贡献点自动化意图解耦:不再依赖人工规则,而是让模型自己学习如何将交互分类。动态权重分配:通过 Self-Attention 实现了行为与意图层面的自适应融合。优异的抗噪性:能够自动识别并降权噪声交互,特别适合真实的电商环境。
2025-12-09 11:05:22
1005
原创 PCDreamer:基于多视角扩散先验的点云补全
点云补全在推动三维视觉发展中扮演着关键角色,是自动驾驶、机器人技术和增强现实等众多应用的核心环节。由扫描遮挡或传感器范围限制导致的不完整点云数据带来了重大挑战。尽管已有诸多创新方法被提出,但在点云全局完整性和局部几何细节方面仍存在显著改进空间。本文针对存在自遮挡的单视角局部点云补全问题展开研究。如图1(a)(b)所示,单视角扫描特性常导致三维形状丢失超50%的信息。典型案例包括缺失整个背面的台灯,以及缺少座椅右侧大部分结构和腿部的椅子。这种大面积缺失区域意味着补全过程面临巨大的解空间。现有主流方法仅依赖局部
2025-12-01 16:41:20
670
原创 HIR-Diff 深度解析:用改良扩散模型做无监督高光谱图像恢复(CVPR 2024)
摘要: CVPR 2024论文《HIR-Diff》提出了一种无监督高光谱图像(HSI)恢复方法,通过改进扩散模型解决高维数据恢复难题。该方法利用HSI的低秩特性,将其分解为降维图像A(由预训练扩散模型恢复)和光谱系数矩阵E(通过SVD与RRQR估计),显著降低了计算复杂度。引入指数噪声调度优化推理效率,仅需少量采样步数即可保持高质量重建。实验表明,HIR-Diff在去噪、超分辨率和缺失像素修复任务中性能优于或媲美现有方法,且计算效率显著提升(如去噪任务仅需17秒)。核心贡献在于将低秩分解与扩散先验结合,无需
2025-11-24 17:07:21
1103
原创 3D-LLM:为LLM注入三维世界理解能力
3D-LLM: Injecting the 3D World into Large Language Models》是一项里程碑式的工作,它成功地将大语言模型的强大认知能力与3D物理世界连接起来。核心启示grounding 是方向:让AI理解物理世界是实现通用人工智能的关键一步。数据可以创造:在数据稀缺的领域,利用现有大模型(如GPT)自动生成数据是一条行之有效的路径。继承与微调是捷径:充分利用现有预训练模型(2D VLM)的能力,通过巧妙的适配实现新模态的快速突破。空间感知是核心。
2025-11-17 06:00:00
837
原创 TrafNet:基于张量表示的辅助信息融合动态图神经网络用于交通流预测
本文提出了一种新的交通流预测模型——TrafNet,结合了张量表示学习、动态图神经网络(DGCN)和辅助信息融合,旨在提高预测精度并优化计算效率。TrafNet通过张量分解降低复杂度,利用动态图建模时空动态关系,并融合流量、速度和占有率等多源数据。实验结果表明,TrafNet在多个数据集(PeMSD3、PeMSD4、PeMSD8)上优于传统模型,表现出更高的预测精度和更低的计算开销。消融实验验证了各模块的重要性。最后,本文展望了未来在引入外部因素、跨领域应用等方面的潜力。
2025-11-09 18:01:52
799
转载 关于图在推荐系统中的研究
本文汇集了五篇基于图神经网络的推荐系统最新研究论文摘要。这些研究聚焦于解决推荐系统中的关键问题:IDCL模型通过解耦图对比学习实现意图感知推荐;端到端图序列表示学习框架结合了序列和图方法优势;PR4SR通过路径推理提升会话推荐的解释性;GraphEdit利用大语言模型优化图结构学习;DGR提出通用框架解决GCN过度平滑问题。这些创新方法在性能提升、可解释性增强及噪声处理等方面展现出显著效果,为推荐系统研究提供了新的技术路径。所有论文均通过大量实验验证了其有效性。
2025-11-03 19:18:28
76
原创 基于谱域的点云学习参数高效微调
摘要:论文《PointGST: Parameter-Efficient Fine-Tuning in Spectral Domain for Point Cloud Learning》提出了一种新型参数高效微调方法PointGST,通过将微调过程从空间域转移到谱域来优化点云学习。该方法创新性地引入点云谱适配器(PCSA)模块,利用图傅里叶变换在谱域解耦特征混淆并融合几何信息,显著降低训练参数数量(仅需0.67%参数)同时提升性能。实验表明,PointGST在保持高效性能的同时,极大地减少了计算和存储开销。
2025-10-27 18:03:58
642
原创 一文看懂 MambaIRv2:让 Mamba 真正“看见全图”的图像修复新架构
《MambaIRv2:注意力状态空间修复》提出了一种改进的Mamba架构,通过两个核心模块解决传统Mamba在图像修复中的缺陷:1)ASE模块通过提示学习融入全局信息,打破因果限制;2)SGN模块通过语义重组序列缓解长距离衰减。实验表明,该方法在超分、去噪等任务中优于现有模型,参数更少且计算效率更高。例如,2×超分任务中,MambaIRv2比基线模型参数少43%但PSNR提高0.34dB。该工作为图像修复提供了新思路。
2025-10-20 21:52:39
1312
原创 结构化特征生成推进广度学习:2025年深度学习领域的重要突破
Advancing Broad Learning Through Structured Feature Generation》在2025年提出了一个简单而有效的想法:用结构化基函数替代随机特征生成,这一改变带来了显著的性能提升。核心启示性能与效率可兼得:SBLS在提升性能的同时保持了BLS的高效特性结构化带来可解释性:设计的基函数使得学习过程更加透明实用导向的设计:从实际应用需求出发,解决了数据稀缺、计算资源有限等现实问题理论实践结合:既有理论保证,又有充分实验验证。
2025-10-12 23:21:05
984
原创 Retrieval Augmented Time Series Forecasting:检索增强时间序列预测
RAFT: 一种基于检索增强的时间序列预测方法 摘要:本文提出RAFT,一种创新的检索增强时间序列预测方法。RAFT通过从训练数据中检索与当前输入最相似的历史模式,并利用这些模式的未来趋势信息进行预测,有效解决了传统深度学习模型需要记忆所有模式的负担。实验表明,RAFT在10个基准数据集上显著优于现有方法。该方法特别擅长处理罕见模式和时间相关性弱的序列,通过显式检索历史模式减轻了模型学习负担,提高了泛化能力。研究还探讨了检索模块对Transformer等模型的普适增强效果,为时间序列预测提供新思路。
2025-09-29 10:41:39
871
原创 深度学习在多模态意图识别中的研究综述
意图识别(Intent Recognition)旨在从用户的自然交互数据(文本、语音、视觉、脑电等)中推断其潜在目标。随着人工智能和深度学习的快速发展,意图识别在 人机交互、对话系统、智能家居、医疗健康、智能驾驶 等领域发挥着越来越重要的作用。最早的研究主要集中在 单模态(unimodal)意图识别,如基于文本的意图分类。但单一模态容易受噪声、语义歧义或信息缺失影响,难以满足复杂场景需求。因此,近年来研究逐渐转向 多模态意图识别(Multimodal Intent Recognition, MIR)
2025-09-22 11:40:55
1492
转载 GrowSP:三维点云的无监督语义分割
论文题目:GrowSP: Unsupervised Semantic Segmentation of 3D Point Clouds作者:Zihui Zhang, Bo Yang, Bing Wang, Bo Li。
2025-09-15 12:33:06
298
转载 混合卷积和注意力网络用于高光谱图像去噪
高光谱图像(HSI)去噪对于高光谱数据的有效分析和解释至关重要。然而,同时建模全局和局部特征以增强HSI去噪的研究很少。在该论文中,作者提出了一种混合卷积和注意力网络(HCANet),该网络利用了卷积神经网络(CNNs)和Transformers的优势。为了增强全局和局部特征的建模,作者设计了一个卷积和注意力融合模块,旨在捕获长距离依赖关系和邻域光谱相关性。此外,为了提高多尺度信息聚合,作者设计了一个多尺度前馈网络,通过提取不同尺度的特征来增强去噪性能。
2025-09-08 15:11:16
245
转载 时空基础模型综述:从数据到模型的全流程解析
《时空基础模型综述:从数据到模型的全流程解析》提出了系统性研究框架,首次从流程视角梳理时空基础模型(STFMs)技术体系。研究团队创新性地构建了"数据来源-依赖关系-模态"三维分类法,详细解析了从数据预处理(如轨迹地图匹配、时空Patching)到模型架构(原生/迁移模型)再到训练适配(自监督学习、跨域对齐)的全流程关键技术。论文指出当前STFMs在跨域统一、多模态融合等方面存在挑战,并提出了规模化训练、标准化评测等六大未来研究方向,为构建通用时空智能基座提供了重要理论支撑。
2025-06-30 10:31:01
363
转载 以史为鉴:面向图像复原问题的对比学习通用框架
图像复原是计算机视觉领域的基础研究内容之一,致力于从低质量图像中恢复出对应的高质量结果,包括图像超分辨率、去雾、去雨以及去模糊等任务。深度学习技术的发展为图像复原领域带来了革命性的进步,基于卷积神经网络(CNN) 和Transformer架构的深度图像复原模型在这一领域引起了广泛关注。尽管随着基础模型的不断改进多种图像复原任务的测试指标也在不断提升,但本质上图像复原方法尝试求解低质量输入到高质量输出的反向映射,是一个不适定问题 (ill-posed problem),仍然充满挑战。
2025-06-09 15:02:30
181
转载 基于解混扩散的自监督高光谱图像去噪
高光谱图像(HSI)在医学、农业和工业等领域有广泛的应用。然而,由于窄带光谱滤波,获取高信噪比的HSI具有挑战性。因此,HSI去噪尤为重要,特别是对于快照高光谱成像技术。虽然大多数现有的HSI去噪方法是有监督的,但为多样化的场景、高光谱相机和扫描参数创建有监督的训练数据集是不现实的。本文提出了Diff-Unmix,一种基于扩散去噪生成模型的自监督HSI去噪方法。具体来说,Diff-Unmix通过结合光谱解混和条件丰度生成来解决噪声退化的HSI恢复问题。
2025-06-03 17:17:04
318
1
转载 AAAI-2025 时间序列(预测)31篇论文汇总
【AAAI2025时间序列预测论文精选】本届AAAI会议共收录63篇时间序列分析论文,其中预测类31篇。
2025-05-25 21:26:06
4362
1
转载 大模型推荐系统:进展与未来
本文将分享关于推荐系统与大模型的一些思考,从推荐系统的评测和数据层面讨论关于大模型是不是推荐系统的一个好的解决方案的问题。今天的介绍会围绕下面四点展开:1. 推荐系统的问题定义及其在工业界与学术界的差异2. 推荐系统的离线评测及典型的数据泄漏问题3. 推荐系统的数据构建问题4. 大模型在推荐系统的模型层面的定位问题分享嘉宾|孙爱欣 南洋理工大学 副教授编辑整理|Tony Wang内容校对|李瑶出品社区|DataFun1 推荐系统的问题定义及其在工业界与学术界的差异首先来介绍一下什么是推荐系统。对于推荐系统的
2025-05-19 12:20:25
807
转载 交通数据集整理
数据是从2016年2月到2019年3月使用几个数据提供程序收集的,包括两个提供流交通事件数据的API,由各种实体捕获的交通事件,例如美国和州交通运输部门,执法机构,交通摄像头和道路网络中的交通传感器。由德国亚琛工业大学汽车工程研究所发布的HighD数据集,是德国高速公路的大型自然车辆轨迹数据,搜集自德国科隆附近的六个不同地点, 位置因车道数量和速度限制而异,记录的数据中包括轿车和卡车。芝加哥市Divvy共享自行车2013至今的骑行使用数据,包括使用者性别、年龄、每次旅行的起点,目的地和时间戳。
2025-05-13 12:27:16
2362
1
转载 All-in-One图像恢复综述:分类、测评和未来趋势
图像恢复(Image Restoration)是指在提升图像视觉质量的过程中,去除噪声、模糊和天气影响等退化现象。传统的图像恢复方法通常针对特定类型的退化,这限制了它们在复杂现实场景中的有效性。为应对这一挑战,一体化图像恢复(All-in-One Image Restoration, AiOIR)应运而生,提供了一个统一框架,能够处理多种退化类型。这些模型通过自适应学习特定于退化的特征,同时利用不同退化之间的共享知识,增强了其便捷性和通用性。
2025-04-27 22:21:40
442
转载 从像素到像素:一种全新的零样本图像去噪方法
论文地址:近年来,基于深度学习的方法凭借其卓越性能主导了图像去噪领域。监督学习方法通过大规模成对数据集训练网络,取得了最佳效果,但其对噪声-干净或噪声-噪声图像对的依赖导致数据收集耗时且复杂。为缓解这一问题,自监督去噪方法通过挖掘噪声图像内部监督信号,避免了干净数据的需求,但仍需大量训练图像,且对真实噪声的泛化能力不足,尤其面对未知噪声类型时性能显著下降。进一步减少数据依赖的零样本方法成为研究热点。这类方法聚焦于单张噪声图像生成训练对及高效网络设计,例如通过添加随机噪声或下采样构造数据,并采用等轻量架构。
2025-04-21 15:58:06
318
原创 BasicTS:全面基准测试与异质性分析
这篇论文对多元时间序列预测领域的研究具有重要意义,BasicTS+基准测试和数据集异质性分析为该领域的研究提供了新的思路和方法。希望感兴趣的读者深入阅读论文原文,获取更多详细信息,共同推动多元时间序列预测领域的发展。
2025-04-13 20:16:04
1493
转载 Price DOES Matter! Modeling Price and Interest Preferences in Session-based Recommendation
价格因素在用户的购买行为中起着至关重要的作用,因此,我们提出一个新的方法互导异质超图网络 CoHHN,将价格因素引入到会话推荐任务当中。首先,我们根据匿名用户产生的会话(session)构建了异质超图,紧接着我们设计了一种双通道信息累积机制来学习节点的表示,随后我们使用注意力层来分别获取用户的原始价格偏好及兴趣偏好,然后我们提出互导学习机制来建模价格偏好及兴趣偏好之间的关系用以修正原始的价格偏好和兴趣偏好表示,最后我们根据用户的价格偏好和兴趣偏好为用户形成个性化推荐列表。),即用户喜欢一件商品的程度。
2025-04-07 14:49:38
111
转载 去噪扩散模型
扩散概率模型作为一种新兴的研究方向,近年来在图像生成领域展现出了巨大潜力。追溯历史,基于扩散的生成模型在2015年就出现了,而直到2020年,Ho等人发表的论文Denoising Diffusion Probabilistic Models,DDPM,将扩散模型推向了大众,DDPM的出现使得扩散模型在实际应用中变得可行。本文将介绍DDPM的核心概念和技术,并以“flowers”数据集为例,从头开始训练DDPM,探索无约束条件下的图像生成过程。在DDPM模型中,作者通过调整模型公式和训练流程,不仅提升了图像的
2025-03-16 22:30:23
467
原创 TimeMixer:用于时间序列预测的可分解多尺度混合模型
在时间序列预测领域,准确捕捉复杂的时间变化是关键挑战。本文介绍的“TimeMixer: Decomposable Multiscale Mixing for Time Series Forecasting”提出了创新的TimeMixer模型,在长短期预测任务中均展现卓越性能。
2025-03-10 16:34:20
3000
原创 基于图神经网络的会话推荐经典论文
其中3篇文章都使用到了软注意力机制,来获取会话的全局表示。在GCE-GNN文章中考虑了位置信息,并加入了反向位置信息。在图结构中,为不同的边考虑不同的权重参数。在GCE-GNN文章中使用注意力机制来从全局图中提取适合当前会话的信息。
2025-03-02 22:53:52
1165
转载 Transformer压缩
对于实际的硬件实现,将权重或激活量化为较低的位是必不可少的。然而,在本综述的范围内,将源模型限制为用于自然语言处理 [134],[4] 或视觉识别 [12],[26],[135],[136] 的预训练大型 transformer 提出了需要解决的几个具体类别的技术(图 5)。在量化过程中,如方程 4 所示,浮点张量 x 被转换为具有相应量化参数(比例因子 s和零点 z)的整数张量 x_int,然后整数张量 x_int 可以被量化回浮点数 x_quant,但与原始 x 相比会导致一定的精度误差,即,
2025-01-13 10:48:53
234
原创 经典论文推荐
交通方向:推荐人:胡梦言1、Li Y , Yu R , Shahabi C ,et al.Diffusion Convolutional Recurrent Neural Network: Data-Driven Traffic Forecasting[J]. 2017.DOI:10.48550/arXiv.1707.01926.推荐理由:引入图卷积操作,同时利用了时间特征和空间特征,是许多论文常用的对比方法。2、Yu L , Du B , Hu X ,et al.Deep spatio-
2025-01-06 10:26:41
1627
转载 图像降噪:最优化建模方案盘点
根据贝叶斯概率论从有噪图像Y恢复无噪图像X可以视为条件概率模型p(Y|X)与p(X)的建模问题,因此图像降噪作为一个典型的病态求解问题需要引入先验信息或者假设模型p(X)。我们可以将降噪方法大体分为外部先验和内部先验方法:外部先验方法主要通过学习外部干净图像数据集的固有属性指导噪声图像降噪,如学习干净图像的字典或先验高斯混合模型,另外基于深度学习的方法也可以归纳于此。而内部先验方法主要依赖于如低秩、稀疏、自相似等图像内部特征,如KSVD、WNNM、BM3D、NLM等方法。
2024-12-30 00:13:34
589
转载 机器学习 - 拉普拉斯算子 与 拉普拉斯矩阵
其中, |V| 即为这个圈的体积, S(V) 为这个圈的边界, n^ 为与圈边界上指向外的单位向量。所以,从以上分析可看出,散度表示了向量场的发散程度,散度为正,值越大,向量场在处发散地越强烈;而散度为负,值越小,向量场在处汇集地越强烈。而。
2024-12-23 09:44:09
985
转载 Learning Multi-granularity Consecutive User Intent Unit forSession-based Recommendation
令表示所有的商品的集合,会话表示为,其中L是会话长度,表示在位置i时商品的id。目的是给定si后,预测。
2024-12-15 19:50:33
212
转载 优化论简介
低罚参数使得优化过程在可行域外也能找到较低的目标函数值点,但可能不满足约束条件。高罚参数强制优化过程在可行域内找到最优解,因为违反约束条件的点会被显著惩罚。
2024-12-08 22:03:27
497
转载 最大似然估计,最大后验估计以及贝叶斯估计
在机器学习中,我们经常使用一个模型来描述生成观察数据的过程。例如,我们可以使用一个随机森林模型来分类客户是否会取消订阅服务(称为流失建模),或者我们可以用线性模型根据公司的广告支出来预测公司的收入(这是一个线性回归的例子)。每个模型都包含自己的一组参数,这些参数最终定义了模型本身。我们可以把线性模型写成 y = mx + c 的形式。在广告预测收入的例子中,x 可以表示广告支出,y 是产生的收入。m 和 c 则是这个模型的参数。这些参数的不同值将在坐标平面上给出不同的直线(见下图)。
2024-12-01 20:38:22
1900
原创 Efficiently Leveraging Multi-level User Intent for SBR via Atten-Mixer Network(WSDM23)
基于会话的推荐(SBR)旨在基于短的和动态的会话来预测用户的下一步行动。最近,人们越来越关注利用各种精心设计的图神经网络(GNN) 来捕获项目之间的成对关系,这似乎表明设计更复杂的模型是提高实证性能的灵丹妙药。然而,虽然模型复杂性的指数增长,但这些模型只能实现相对边际的改进。因此,本文建议直接去掉GNN的传播部分,在readout模块增强其推理能力。Atten-Mixer提出了多级注意混合网络,它利用概念视图和实例视图读数来实现项目转换的多级推理。
2024-11-24 16:42:22
895
转载 两类最主流AI应用中的目标函数
本篇通俗讲述“文生图”、聊天机器人背后的大致原理,重点阐述衡量生成结果与真实情况之间分布差异的KL散度(相对熵)、评估排序信息的成对排序损失(Pairwise Ranking Loss)两种任务类型的目标函数。类似Midjourney、DALL-E、Stable Diffusion、FLUX.1等优秀的“文生图”应用,在训练中势必要重点关注“如何衡量推测分布(生成的图像)与实际分布(原始的图像)的差距”。喂给SFT模型一个问题文本,得到4个回答(A、B、C、D),人类标注员进行排序(D>C>A>B)。
2024-11-18 10:12:38
341
转载 大模型的原理、应用与未来趋势
如果说统计模型是一个熟练的棋手,那么神经模型就像是一个天才棋手,不仅记住了大量的棋谱,还能理解每步棋背后的深层策略。例如,在Falcon40B模型的训练过程中,研究人员对CommonCrawl数据进行了大规模的过滤和去重,最终从原始的数万亿个token中筛选出了约5万亿个高质量的token。构建一个成功的大语言模型,就像精心打造一座宏伟的建筑。例如你可以用自然语言告诉Alpaca “为我的宠物猫设计一个自动喂食器”,它不仅能理解你的需求,还能给出详细的设计方案,包括材料清单、组装步骤,甚至可能的改进建议。
2024-11-10 22:27:57
285
雅虎音乐数据集1.0版本yahoo-music.zip
2021-03-31
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅