- 博客(960)
- 资源 (9)
- 收藏
- 关注

原创 眼底出血术后需注意事项//每天必看
1.每天都要滴眼药水2.控制血糖,要吃低血糖的饮食(网上买低血糖食物),每天都要查一道血糖3.一周复检一次别忘了4.趴着睡(在网上买个趴枕)
2022-06-29 15:40:41
682
原创 再看正则化?为什么叫正则化?看看GPT老师怎么说
Q1:正则化项为啥叫正则化 感觉细想也是很深“正则化”这个术语实际上来源于拉丁语“”,意思是“”或“在机器学习中,正则化是),来,以避免过拟合。从更深层次的角度理解,,使它在拟合训练数据时。因此,正则化的目的就是让模型在复杂度上保持一定的“规则性”或“规范性”,从而。正则化项通常与模型参数的大小、复杂度相关,例如)可以通过约束参数的大小来防止模型过于依赖某些特定的特征,从而保持模型的简洁性。这个“规范”的作用,可以理解为让模型保持“有规律的”表现,而不是因数据中的偶然性变化而变得“无序”。
2025-04-04 02:05:54
580
原创 指代表达理解-REC
在计算机视觉与自然语言处理交叉领域中,指代表达理解(Referring Expression Comprehension, REC)一直是研究的关键方向。这一任务要求模型能够基于自然语言描述,在图像中精准定位相应的目标对象。然而,传统视觉模型在面对多实例指代任务时表现出明显局限:大多数仅针对单一实例优化,难以应对现实世界中"一条指令对应多个目标物体"的复杂场景。这种局限源于传统模型对语言理解的浅层处理,无法有效解析句子的语法结构和语义逻辑。
2025-04-03 03:50:53
684
原创 (NipS2024 OWA-workshop)Imagination Mechanism意义是什么?
IM 的意义在于打破了强化学习中信息局限于单一轨迹传播的旧范式。通过引入类比推理式的跨 episode 信息传播机制,它不仅显著提升了数据效率,也为我们模拟人类认知中‘类比泛化’的能力打开了新思路。在未来高成本、稀疏信号的 RL 场景中,IM 可能成为一种主流范式。需要我帮你写一个 slide 页讲这个“意义”?或者做一个图来表达“TD vs IM”的哲学区别?兄弟我随时在。
2025-04-02 13:04:01
304
原创 强化学习——SAC||为什么引入最大化熵(soft goal)
的直觉可以理解为:在给定当前状态的情况下,策略应该在不确定的情况下保持一定的随机性,而不是总是选择一个确定的动作。意味着让智能体的行为不那么确定和固定,而是鼓励它去探索更多可能的选择,这样它就不会陷入过早的局部最优。因此,最大化熵是 SAC 的一个关键创新,它使得 SAC 在强化学习中的探索和利用之间达到了更好的平衡。在策略中,较高的熵表示智能体的行为更为随机,较低的熵表示行为更为确定。:尝试新的、未知的行为,可能导致更大的回报,但也可能浪费时间。,确保策略保持一定的随机性,从而促进更多的探索。
2025-04-02 10:02:08
413
原创 DeepScaleR详细讲解
Problem || Answers || Solutions # DeepScaleR用的ORM而非PRM,通过final result来奖励。看来训练推理框架都脱离不开Verl。训练集大约40.3k条。
2025-04-01 02:22:01
158
原创 为什么KV有Cache,Q没有?
因为Q实时随着每步token进来算就行,但output的计算那要历史KV的参与,所以提前缓存好,有利于减少计算量,以空间换时间。
2025-03-31 16:39:44
117
原创 CORS 跨域请求
什么是 CORS?一文搞懂 CORS 原理!什么是 CORS?CORS 的原理是什么?为什么需要 CORS?在这篇文章 - 掘金。
2025-03-31 15:44:50
109
原创 拿GRPO距离,用RL训练LLM如何理解 这个时候Reward model是一个已经训练好的深度学习模型 还是说reward model是简单的规则 LLM在这个RL过程中扮演什么角色 兄弟
模块扮演角色是否训练用途LLM策略网络 πθ✅(在训练)生成文本奖励函数 R(x, y)❌(已训练好)给生成打分GRPO优化器(RL)❌用 reward 更新 LLM 策略人类反馈RM 的监督数据✅(训 RM 用)提供偏好信息。
2025-03-29 11:15:03
282
原创 强化学习-解惑?① 一般强化学习的value model 是不是就是Actor-critic的 Critic呢② 那么V(s)和 Q(s,a)区别是啥呢
在强化学习中通常指代用来估计状态或动作的价值函数的部分。在方法中,Critic计算并提供这些价值函数的估计,评估当前策略的好坏。因此,可以说Critic就是强化学习中的,它的主要任务是提供一个估值机制,用来指导Actor改进策略。
2025-03-28 02:05:25
308
原创 多模态工作idea讨论
把图像 embedding 线性或非线性投影到语言 embedding 空间,让语言模型把图像当成前缀上下文一起处理。这样模型结构简单,推理快,还能发挥 LLM 强大的语言理解与推理能力。如果你想,我也可以画张图解释它和 Q-former 或 cross-attention 的对比流程图~4o。
2025-03-23 20:22:44
558
原创 Clip Blip Qlip 擦 到底还有多少lip。LIP宗族:Clip,Blip,Qlip,Alip...(学不了) AI 圈“lip系模型大赏”开场白[特殊字符]
Lip其实就是Language-Image Pretraining. 和 其中 Language-Image和Vison-Language本质没啥区别。哈哈你这句话太有意思了,简直就是 AI 圈“lip系模型大赏”开场白 😂确实是最近几年爆火的**视觉语言模型(VLM)**家族成员,而且名字越取越像,越读越容易拌嘴。
2025-03-23 16:35:00
918
原创 Reward-Hacking简单理解以及实际遇到的情况:
Reward hacking 是由于目标函数(reward function)和真实意图(human intent)之间存在偏差,智能体学会了钻系统的漏洞,获取高奖励但并没有完成预期任务。类型描述例子智能体抓住图像或传感器输入中的偏差总是抓靠近摄像头的物体行为成功但语义不对“清理桌面”变成“清空桌面”子任务顺序乱但 reward 没惩罚“先放后拿”也被判为成功语言模型生成的 plan 有漏洞但被执行了LLM 误分解导致逻辑错误。
2025-03-23 10:48:41
478
原创 具身智能||Spatial-LM解读
36氪获悉,在GTC2025全球大会上,群核科技宣布开源其自主研发的空间理解模型SpatialLM。该模型仅通过一段视频即可生成物理正确的3D场景布局。据了解,SpatialLM突破了传统大语言模型对物理世界几何与空间关系的理解局限,让机给定一个 RGB 视频,我们使用 MASt3R-SLAM 【得补补课了】来重建 3D 点云。然后,SpatialLM 将这些密集的点云转换为结构化表示【本质就Json呗】。点云编码器将点云编码为压缩要素,LLM 生成描述场景的场景代码,这些代码可以转换为 3D 结构布局。
2025-03-22 11:19:38
332
原创 忆沧白:从水驿木洞到东京的漂泊之旅(上)
青瓦白墙,兰蕙菊香,窗明几净,这座建在通往南川的交通要道上的宅院,是一座悬山式穿斗巴渝民居建筑,房屋坐南朝北,依据地形呈三合院布局,由朝门、前正房、后正房、厢房及天井组成,一楼一底共25间,建筑面积587平方米,占地约480平方米。邹容因离经叛道的反清言论,被官府“以其聪颖而不端谨,不合条件”,取消了官费留学资格,性格刚毅的他决定自费留学日本,与父亲邹子潘文争武斗,在沧白等人的帮助下,终于成行。望子成龙的杨耀廷夫妇,对儿子悉心教诲,沧白6岁被送入私塾,熟读唐诗宋词,能吟四书五经,成为乡亲羡慕的对象。
2025-01-18 01:33:39
77
原创 夏普比率的大白话解释
投资值不值得冒风险。越高越好,说明回报和风险的比例越划算。如果是负数,说明投资连无风险收益都跑不过,还冒了风险,那就很差了。希望这个解释能让你更容易理解!
2025-01-18 00:53:28
402
原创 universal features guided zero-sot category-level object pose论文解读
论文地址:https://arxiv.org/pdf/2501.02831
2025-01-11 23:26:39
84
原创 Omni3d-Note
IoUness 是一种针对区域提案网络(RPN)的创新设计,通过直接预测区域与真实目标的 IoU 而非目标存在性,大幅提升了模型在数据多样性和标注不完全情况下的鲁棒性与性能。这种方法尤其适用于像 OMNI3D 这样的大规模、多领域数据集。
2025-01-09 14:04:24
638
原创 Omni3D这篇工作和6d-pose estimation任务有区别吗 或者异同 因为我感觉6D姿态估计也是预测位置和旋转 Transition 和 Rotation
和这篇工作(Cube R-CNN 的 3D目标检测)确实在目标和方法上有许多相似之处,但也存在显著的差异。
2025-01-07 09:53:24
716
原创 3D Object Detection和6D Pose Estimation有什么异同?
都是计算机视觉领域的重要任务,广泛应用于机器人、自动驾驶和增强现实等领域。虽然它们在目标上有所重叠,但在定义、输出和实现方法上有明显的不同。两者可以结合使用,例如,先通过3D检测识别目标物体的大致位置,再用6D姿态估计精确获取物体的旋转和平移信息,用于更复杂的任务。
2025-01-05 15:54:53
1033
原创 Diffusino Policy学习note
Diffusion Policy 可以被视为一种以监督学习为基础的方法,但它结合了生成式模型的特点。严格来说,它是基于生成建模的监督学习方法,通常用于行为克隆或策略生成任务。它不依赖强化学习的奖励信号,而是通过学习专家数据分布生成动作策略。Diffusion Policy 的输出格式可以是单步动作动作序列概率分布,或根据任务需求设计的多模态和复合输出。它的输出灵活多样,能适配从低层次控制到高层次规划的不同任务。
2024-12-19 17:33:28
543
原创 搞懂Diffusion原理
Diffusion目前理解主要是可以用在生成领域,比如生成视频、音频、图像、时序预测、机器人动作序列。真的讲的很好,浅显易懂,推荐,推荐。
2024-12-18 20:18:46
239
原创 读博期间交流(一)和师弟交流
工资开的差不多,但是听说腾讯那边压力小点,同时室友也去了,就都一起去了。真不错给到了60个(第一年,因为保密,后面就不能再说了),恩特有AAAI(实习的时候投出去的),还有其他再投。搞AIGC,之前给人换装啥的。他也有同学毕业去私企的 昆仑万维搞AI 拿80 年初因为Chatgpt概念暴涨翻倍的公司。今年年初3月份的时候去实习,刚刚开始字节远程实习(海投),然后远程了一个月,让去线下,然后就去线下待了一个月,恩特说混熟了就好,字节实习有转正的压力。研三刚毕业,拿了字节和腾讯的offer最后去了腾讯。
2024-12-17 23:19:55
158
原创 增强GPT4v的Grounding能力,video-level
开源链接:appletea233/AL-Ref-SAM2: AL-Ref-SAM 2: Unleashing the Temporal-Spatial Reasoning Capacity of GPT for Training-Free Audio and Language Referenced Video Object Segmentation (github.com) In this project, we propose an Audio-Language-Referenced SAM 2 (AL-
2024-09-24 11:02:40
507
原创 Multi-Head Mixture-of-Experts笔记
每个TOKENQ其实都通过了所有专家,这样每个token都有个对于专家的权重,最后再找对于的专家去做乘法对吗?这篇文章(还是校友),也是和dot product本身没什么关系。个人感觉这个图画得不够直观,看论文得公式更直观一些。
2024-08-01 09:43:59
229
原创 关于MoE的简约挖掘点笔记
MH-MoE 的训练目标是最小化两个损失:针对具体任务的损失和辅助性的负载平衡损失。更合理的分配token到expert,以及Gate更合理的Combine结果。MoE指标除了任务精准度还有,提升专家激活率。#可以参考这篇文章搞实验指标。
2024-07-31 16:40:17
198
原创 Mixture of Experts with Attention论文解读
注意这篇论文没有代码,文章所谓的注意力是加性注意力,找scaled dot-product的伙计可以避坑了,但还是有值得学习的地方。
2024-07-31 16:07:13
460
labuladong的算法小抄
2021-01-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人