- 博客(5)
- 收藏
- 关注
原创 关于ubuntu22中罗技无线鼠标滚轮失效问题
在有一次双系统重启之后,突然发现一直正常使用的罗技M330无线鼠标的滚轮突然失效了,但是触控板是正常的,双指可以进行滚轮操作,在网上找了很多种方法都没有解决,困扰我许久。启发,先是换了另一个品牌的无线鼠标进行测试,发现滚轮功能正常,接着切换到win上打开罗技官方的软件把鼠标。的开关关闭,再次启动ubuntu发现问题得到了解决。
2025-11-05 22:14:39
202
原创 现代软件工程-对编程项目总结作业2
本项目实现了一个智能电梯调度系统,采用客户端-服务器架构,将“算法控制”和“GUI显示”完全解耦。系统支持作为独立客户端对接电梯模拟服务器,既可以运行本组算法配合本组界面,也可以跨组互相对接。核心算法基于分区驻守与 SCAN 顺扫策略,并使用评分派梯实现更高效的响应。项目附带完整的启动脚本与依赖说明,便于在 Windows/Linux 环境下运行。
2025-10-27 17:25:44
833
2
原创 IJRR’24&RSS‘23 Diffusion Policy Visuomotor Policy Learning via Action Diffusion
本文介绍了Diffusion Policy,一种通过条件去噪扩散过程表示机器人视觉运动策略的新方法。在4个不同机器人操作基准的15个任务中,Diffusion Policy consistently outperforms existing state-of-the-art methods,平均性能提升46.9%。该方法学习行动分布分数函数的梯度,并通过随机朗之万动力学步骤在推理期间优化该梯度场。与显式策略(相当于直接学习一个状态到动作的映射函数/控制器)和隐式策略。
2025-10-11 14:24:55
383
原创 Neurips‘25 What Can RL Bring to VLA Generalization? An Empirical Study
本文系统研究了强化学习(RL)对视觉语言动作(VLA)模型泛化能力的提升作用。研究发现,相比监督微调(SFT),RL方法能显著增强模型在分布外数据(OOD)上的表现。文章详细分析了三种RL算法:PPO(在线演员-评论员算法,通过价值函数估计和策略优化提升泛化)、DPO(离线偏好对齐算法,直接利用偏好数据优化策略)和GRPO(基于分组排序的混合方法,通过相对优势计算优化策略)。实验表明,RL训练使VLA模型能够纠正执行误差、适应未知状态,从而在具身智能任务中实现更鲁棒的泛化性能。
2025-10-10 21:16:18
897
原创 现代软件工程-阅读和提问作业1
例如,iOS每年迭代虽非颠覆,却持续巩固苹果生态优势。回顾我的求学过程,优快云、博客园、知乎等技术社区一直是不可或缺的知识来源,我习惯于作为一名被动的学习者,从中汲取前辈和同行总结的经验与智慧。上下文来源:第16.1.7节“迷思之七:成功的团队更能创新”中,作者提出“颠覆性技术”与“维持性技术”的区分,并认为大企业往往困于“创新者的困境”,难以拥抱颠覆性创新。提问原因:我认同颠覆性创新的重要性,但认为渐进式创新的价值同样重要,或者可以这么说,颠覆性创新是可遇不可求的,而渐进式创新则是更容易达到的。
2025-10-09 23:36:21
783
9
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅