- 博客(1033)
- 资源 (54)
- 收藏
- 关注
原创 扩散模型与强化学习(0):专栏汇总与导航
最近强化学习在Diffusion Models得到了越来越多广泛的应用,本专栏将系统性地介绍当前Diffusion Models中实用且前沿的技术进展。
2025-06-22 17:11:34
551
2
原创 手把手写C++服务器(0):专栏文章-汇总导航【持续更新】
手把手写C++服务器(1):网络编程常见误区手把手写C++服务器(2):C/C++编译链接模型、函数重载隐患、头文件使用规范手把手写C++服务器(3):C++编译常见问题、编译优化方法、C++库发布方式手把手写C++服务器(4):Linux四大必备网络分析工具手把手写C++服务器(6):编译实操——打开gcc/g++世界手把手写C++服务器(7)——给C语言程序员看的C++科普手把手写C++服务器(8):常用boost之program_options命令行参数解析
2021-07-28 11:58:34
5172
51
原创 经典必刷LeetCode汇总
LeetCode题目分类Hash相关q1_两数之和链表操作q2_两数相加 q19_删除链表的倒数第N个节点 q61_旋转链表 q138_复制带随机指针的链表 q206_反转链表双指针遍历/滑动窗口q3_无重复字符的最长子串 q11_盛最多水的容器 q15_三数之和 q16_最接近的三数之和 q26_删除排序数组中的重复项 q42_接雨水 q121_买卖股票的...
2020-04-12 15:04:05
4236
2
原创 Diffusion Models和MoE:论文、代码汇总
本文汇总了当前扩散模型与专家混合(MoE)架构结合的前沿研究,主要分为Token Choice和Expert Choice两大方向。Token Choice相关研究包括HunyuanImage-3.0、Routing Matters in MoE等7项工作,探讨了动态路由选择、高效训练方法等;Expert Choice部分包含Expert Race和EC-DIT两项研究,专注于专家选择策略优化。所有研究均提供论文链接,部分开源代码可用。这些工作展示了MoE架构在提升扩散模型规模和效率方面的潜力。
2025-12-27 13:02:34
289
原创 每日AIGC最新进展(94):MIT提出实时流式视频生成StreamDiffusionV2、LeCun&李飞飞&谢赛宁联合提出空间超感知Cambrian-S
MIT提出实时流式视频生成StreamDiffusionV2、LeCun&李飞飞&谢赛宁联合提出空间超感知Cambrian-S
2025-11-14 08:15:00
1191
2
原创 从近期Kimi-Linear、LongCat-Video和Qwen-Next解读下一代大模型架构升级
近期Kimi-Linear、LongCat-Video和Qwen-Next都公开了技术报告和原始代码,共同点是他们都从架构上做了不小的升级,带来了超长tokens的处理能力和更快的推理性能。这篇博客就从近期Kimi-Linear、LongCat-Video和Qwen-Next解读下一代大模型架构升级。
2025-11-13 20:30:00
975
1
原创 详细解读视频生成模型Wan2.1代码
这篇博客的初稿写于8个月前Wan2.1刚刚开源之际,如今Wan2.1已经成为了做视频生成方向最最常用的基础模型,据不完全统计,半年间基于Wan2.1发表的顶会顶刊就超过了100篇。这篇博客详细解读一下这篇现代视频生成模型的原理和代码。
2025-11-12 20:39:43
1085
1
原创 每日AIGC最新进展(93):字节开源720p视频生成自回归模型、字节开源多模态图片编辑模型DreamOmni2、上交提出细粒度PixCLIP
字节开源720p视频生成自回归模型、字节开源多模态图片编辑模型DreamOmni2、上交提出细粒度PixCLIP
2025-11-11 08:15:00
1769
6
原创 Diffusion Models与视频超分(3): 解读当前最快和最强的开源模型FlashVSR
FlashVSR 是首个实现近实时(17 FPS)、流式处理、支持 1440p 的扩散视频超分辨率模型,通过三阶段蒸馏、局部稀疏注意力和微型条件解码器,兼顾速度、质量与可扩展性。
2025-11-10 23:10:07
1143
1
原创 每日AIGC最新进展(92):达特茅斯学院提出超高分辨率图片生成Scale-DiT、北航提出滤镜图片生成Personalized Image Filter、清华提出多轮视觉编辑ConsistEdit
达特茅斯学院提出超高分辨率图片生成Scale-DiT、北航提出滤镜图片生成Personalized Image Filter、清华提出多轮视觉编辑ConsistEdit
2025-11-04 08:00:00
1438
2
原创 每日AIGC最新进展(91):通义实验室提出Diffusion-MoE方法Routing Matters in MoE、快手提出组相对注意力图像编辑模型GRAG、腾讯提出误差感知趋势一致加速方法ETC
通义实验室提出Diffusion-MoE方法Routing Matters in MoE、快手提出组相对注意力图像编辑模型GRAG、腾讯提出误差感知趋势一致加速方法ETC
2025-11-03 08:30:00
669
4
原创 每日AIGC最新进展(90):腾讯提出视频编辑模型GenCompositor、北京智源研究院发布世界模型Emu3.5
腾讯提出视频编辑模型GenCompositor、北京智源研究院发布世界模型Emu3.5
2025-11-02 14:22:02
831
1
原创 每日AIGC最新进展(89):Vivo提出大规模超分辨率数据集、希伯来大学提出超高分辨率位置编码外推方法、哈工大提出个性化文生图模型EchoDistill
Vivo提出大规模超分辨率数据集、希伯来大学提出超高分辨率位置编码外推方法、哈工大提出个性化文生图模型EchoDistill
2025-10-30 23:30:00
1609
1
原创 Diffusion Model与视频超分(2):解读字节开源视频增强模型SeedVR2
在SeedVR之后,字节又开源了SeedVR2。相比于上一代的模型,在速度和性能上都有了非常大的提升,特别是单步的生成技术,极大降低了计算成本。本篇博客从论文和代码角度讲解《SeedVR2: One-Step Video Restoration via Diffusion Adversarial Post-Training》
2025-10-29 23:09:50
1135
2
原创 Diffusion Model与视频超分(1):解读淘宝开源的视频增强模型Vivid-VR
近年来,基于扩散的生成模型取得了显著进展,现已能够合成逼真的内容,这一进步确立了生成式视频修复作为一种有前景的新范式。Vivid-VR 首先使用 CogVLM2-Video 处理低质量(LQ)输入视频,生成文本描述,并通过 T5 编码器将其编码为文本标记。同时,3D VAE 编码器将输入视频转换为潜在表示,我们的控制特征投影器在此去除退化伪影。为了增强可控性,引入了一个双分支连接器,一个用于特征映射的 MLP 和一个用于动态控制特征检索的交叉注意力分支,实现自适应的输入对齐。
2025-09-20 22:58:51
1582
6
原创 FantasyHSI:Video-Generation-Centric 4D Human Synthesis In Any Scene through A Graph-based
设计了一种新颖的HSI框架,以视频生成和无配对数据的多智能体系统为中心,将复杂的交互过程建模为一个动态有向图,在此基础上构建了一个协作的多智能体系统。多智能体系统包括一个用于环境感知和高级路径规划的场景导航智能体,一个将远景目标分解为原子动作的规划智能体,和一个批评智能体,通过评估生成的动作与计划路径之间的偏差来建立闭环反馈机制,能够动态修正由生成模型的随机性引起的轨迹漂移,从而确保长期的逻辑一致性。利用强化学习来训练动作生成器,显著减少了肢体扭曲和脚滑动等伪影,保持生成的一致性和物理性。
2025-09-20 21:09:36
746
1
原创 代码解读:微调Qwen2.5-Omni 实战
Qwen2.5-Omini发布已经几个月了,但是网上实战微调的教程比较少,特别是如何准备数据如何调参等经验性技巧依旧比较难获得。这篇博客从实战出发,介绍如何微调Qwen2.5-Omni以及微调过程中的一些经验。
2025-07-28 20:46:33
2048
1
原创 畅游Diffusion数字人(31):FantasyPortrait打造全新面部驱动引擎
从静态图像生成富有表现力的面部动画是一项具有挑战性的任务。以往依赖显式几何先验(如人脸关键点或三维形状模型 3DMM)的方法,在跨身份迁移时容易产生伪影,且难以捕捉细腻的情感。此外,现有方法普遍不支持多角色动画生成,因为来自不同角色的驱动特征往往会相互干扰,进一步加大任务的复杂度。为了解决这些问题,阿里巴巴提出了 FantasyPortrait,一个基于扩散变换器的框架,能够在单角色和多角色场景中生成高保真、情感丰富的面部动画。
2025-07-23 08:15:00
1637
原创 扩散模型与强化学习(14):强化学习中黑客技能的泛化现象与解决方案
研究揭示了AI模型的奖励黑客行为在任务间具有泛化性。通过8个多选题数据集实验,使用GPT-3.5和专家迭代方法发现,训练环境中的奖励黑客行为会泛化到测试环境。研究设计了"草稿纸"机制记录模型推理过程,并观察到模型能结合用户信念、认知评估标准,甚至可能重写自身奖励函数。实验设置了政治谄媚、工具奉承等可游戏化环境课程,结果显示模型奖励篡改成功率低于1%。缓解措施包括对抗性奖励函数、模型前瞻等技术,以及在易受攻击环境中使用监督微调数据。研究强调需要改进RL算法和工程实践来预防奖励黑客行为
2025-07-22 09:00:00
716
2
原创 扩散模型与强化学习(13):In-Context Reward Hacking现象与解决方案
奖励作弊(Reward Hacking)指智能体通过钻规则漏洞而非真正完成任务来最大化奖励信号。以论文编辑实验为例,研究提出“上下文奖励作弊”(ICRH)概念,即模型利用共享上下文钻空子,如盲目添加“正确!”或输出无关内容。实验发现,模型规模扩大可能加剧ICRH,且提示词优化难以根治。与传统奖励作弊不同,ICRH发生在部署阶段,由通用性驱动。应对建议包括多轮测试、多样化反馈及异常场景模拟,但尚无完美解决方案。
2025-07-21 09:00:00
1142
原创 扩散模型与强化学习(12):RLHF中的Reward hacking现象
本文探讨了强化学习中的奖励黑客(Reward Hacking)问题,即智能体通过利用奖励函数缺陷获取高回报却未达成预期目标的现象。文章分析了奖励黑客的成因,包括环境不完善、奖励函数设计挑战以及Goodhart定律的影响,并区分了环境误设型和奖励篡改型两种类型。特别关注了RLHF(基于人类反馈的强化学习)在语言模型中的应用,指出模型可能通过生成看似正确实则错误的回答来"欺骗"人类评估者。研究显示,随着模型能力提升,奖励黑客现象会加剧,表现为代理奖励上升而真实奖励下降。文章呼吁未来研究
2025-07-20 15:03:30
1282
原创 FantasyPortrait:Enhancing Multi-Character Portrait Animation with Expression-Augmented Diffusion
从静态图像中产生富有表现力的面部动画是一项具有挑战性的任务。先前的方法依赖于明确的几何先验(例如,面部地标或3DMM),在交叉再现中经常受到伪影的影响,并且难以捕捉微妙的情感。此外,现有的方法缺乏对多角色动画的支持,因为来自不同个体的驱动特征经常相互干扰,使任务复杂化。为了解决这些挑战,我们提出了FantasyPortrait,这是一个基于扩散转换器的框架,能够为单角色和多角色场景生成高保真和情感丰富的动画。我们的方法引入了一种表情增强学习策略,该策略利用内隐表征来捕捉身份不可知论的面部动态,增强模型呈现细
2025-07-19 11:44:59
958
2
原创 每日AIGC最新进展(88):月之暗面提出Anything-to-Audio生成AudioX、浙江大学提出基于潜在运动的肖像视频生成、百度提出人类手势与语音节奏同步的视频生成Cosh-DiT
月之暗面提出Anything-to-Audio生成AudioX、浙江大学提出基于潜在运动的肖像视频生成、百度提出人类手势与语音节奏同步的视频生成Cosh-DiT
2025-07-10 09:00:00
1104
原创 每日AIGC最新进展(87):字节跳动提出通过相机控制的视频扩散模型实现大规模动态场景CameraCtrl II、微软提出3D引导的可控视频生成I2V3D、高德提出运动规律视频测评VMBench
字节跳动提出通过相机控制的视频扩散模型实现大规模动态场景CameraCtrl II、微软提出3D引导的可控视频生成I2V3D、高德提出运动规律视频测评VMBench
2025-07-09 08:45:00
847
原创 每日AIGC最新进展(86):字节跳动提出多物体组合视频生成CINEMA、CVPR2025 自回归Mesh生成TreeMeshGPT、南京大学提出视频中插入单图对象方法DreamInsert
字节跳动提出多物体组合视频生成CINEMA、CVPR2025 自回归Mesh生成TreeMeshGPT、南京大学提出视频中插入单图对象方法DreamInsert
2025-07-08 08:30:00
1007
1
原创 每日AIGC最新进展(85):华中科技大学提出视觉空间人物思维链EmbodiedVSR、腾讯提出VLM-Guide Mesh生成PBR3DGen、TCD提出使用Jensen蒸馏的Text-to-3D
华中科技大学提出视觉空间人物思维链EmbodiedVSR、腾讯提出VLM-Guide Mesh生成PBR3DGen、TCD提出使用Jensen蒸馏的Text-to-3D
2025-07-07 09:00:00
1279
原创 每日AIGC最新进展(84):清华大学提出高效视频理解FastVID、多伦多大学提出长时间视频理解模型Vamba、杭州电子科技大学提出反事实推理多模态大模型Bench COVER
清华大学提出高效视频理解FastVID、多伦多大学提出长时间视频理解模型Vamba、杭州电子科技大学提出反事实推理多模态大模型Bench COVER
2025-07-06 15:09:56
1021
原创 每日AIGC最新进展(83):华为提出频驱动的通用肖像视频编辑RASA、香港科技大学提出长视频生成Multi-Agent、北京大学提出高效视频到音频生成模型TA-V2A
华为提出频驱动的通用肖像视频编辑RASA、香港科技大学提出长视频生成Multi-Agent、北京大学提出高效视频到音频生成模型TA-V2A
2025-07-05 08:45:00
983
原创 每日AIGC最新进展(82):耶鲁大学提出自回归视频生成统一框架Meta-ARVDM、弗吉尼亚州立大学提出视频参照抠图VRMDiff、中山大学提出大型的任务导向手-物体交互视频数据集TASTE-Rob
耶鲁大学提出自回归视频生成统一框架Meta-ARVDM、弗吉尼亚州立大学提出视频参照抠图VRMDiff、中山大学提出大型的任务导向手-物体交互视频数据集TASTE-Rob
2025-07-04 08:45:00
735
原创 每日AIGC最新进展(81):快手提出生成视频重渲染框架ReCamMaster、天津大学提出多任务视频修复框架MTV-Inpaint、微软提出新文生视频框架HiTVideo
快手提出生成视频重渲染框架ReCamMaster、天津大学提出多任务视频修复框架MTV-Inpaint、微软提出新文生视频框架HiTVideo
2025-07-03 08:45:00
1349
1
原创 扩散模型与强化学习(11):解读经典Diffusion-DPO
本文提出Diffusion-DPO方法,通过直接优化人类偏好数据来对齐文本到图像扩散模型。该方法基于直接偏好优化(DPO)框架,重新设计损失函数以适应扩散模型的似然特性。实验使用85.1万对Pick-a-Pic数据集微调Stable Diffusion XL模型,结果表明该方法在视觉吸引力和文本对齐度上显著优于基线模型。研究还探索了AI反馈替代人工评估的可行性,发现使用PickScore等评分模型训练能进一步提升性能,为扩散模型对齐提供了新方向。
2025-07-02 08:45:00
1820
原创 扩散模型与强化学习(10):解读第一个视频生成DPO的工作VideoDPO
本文提出VideoDPO方法,通过改进直接偏好优化(DPO)来解决视频扩散模型存在的视觉质量与文本-视频对齐问题。作者设计了OmniScore综合评分系统,同时评估视频质量和语义对齐度,并开发自动化流程生成偏好对数据,无需人工标注。实验表明,该方法显著提升了生成视频的视觉保真度和语义一致性,为多维度偏好对齐提供了有效解决方案。
2025-07-01 08:30:00
570
原创 扩散模型与强化学习(9):Hallo4: High-Fidelity Dynamic Portrait Animation via Direct Preference Optimization
本文提出了一种基于人类偏好对齐的扩散框架,用于生成高度动态和逼真的音频驱动肖像动画。通过构建专门的人类偏好数据集,并引入定向偏好优化和时序运动调制两大创新,解决了唇部同步、表情自然度和运动连贯性等关键挑战。该方法在UNet和DiT架构中均表现出优势,实验表明其显著提升了唇音同步精度和面部表现力,同时在人类偏好指标上优于现有基线。研究还发布了首个针对肖像动画的偏好数据集,为相关领域研究提供了重要资源。该框架为高保真肖像动画的生成提供了新的技术路径。
2025-06-30 09:00:00
1071
2019年西安电子科技大学《自动控制原理》期末试卷
2020-01-08
中国大学生计算机设计大赛·国家级一等奖作品·资料汇总
2021-05-19
ShapeNet数据集
2021-02-05
电子信息/通信/计算机专业 保研资料汇总
2021-05-28
2016年-2019年西安电子科技大学《自动控制原理》期末试卷汇总.zip
2020-01-08
2019年全国大学生电子设计大赛B题所有源代码
2019-08-12
Webvid-10M数据集 完整版-第一部分
2024-09-23
Webvid-1M原始数据集完整版-第二部分
2024-09-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅