思考实践-优快云博客

原创眼底出血术后需注意事项//每天必看

1.每天都要滴眼药水2.控制血糖，要吃低血糖的饮食（网上买低血糖食物），每天都要查一道血糖3.一周复检一次别忘了4.趴着睡（在网上买个趴枕）

2022-06-29 15:40:41 682

Q1:正则化项为啥叫正则化感觉细想也是很深“正则化”这个术语实际上来源于拉丁语“”，意思是“”或“在机器学习中，正则化是），来，以避免过拟合。从更深层次的角度理解，，使它在拟合训练数据时。因此，正则化的目的就是让模型在复杂度上保持一定的“规则性”或“规范性”，从而。正则化项通常与模型参数的大小、复杂度相关，例如）可以通过约束参数的大小来防止模型过于依赖某些特定的特征，从而保持模型的简洁性。这个“规范”的作用，可以理解为让模型保持“有规律的”表现，而不是因数据中的偶然性变化而变得“无序”。

2025-04-04 02:05:54 580

原创指代表达理解-REC

在计算机视觉与自然语言处理交叉领域中，指代表达理解（Referring Expression Comprehension, REC）一直是研究的关键方向。这一任务要求模型能够基于自然语言描述，在图像中精准定位相应的目标对象。然而，传统视觉模型在面对多实例指代任务时表现出明显局限：大多数仅针对单一实例优化，难以应对现实世界中"一条指令对应多个目标物体"的复杂场景。这种局限源于传统模型对语言理解的浅层处理，无法有效解析句子的语法结构和语义逻辑。

2025-04-03 03:50:53 684

原创（NipS2024 OWA-workshop）Imagination Mechanism意义是什么？

IM 的意义在于打破了强化学习中信息局限于单一轨迹传播的旧范式。通过引入类比推理式的跨 episode 信息传播机制，它不仅显著提升了数据效率，也为我们模拟人类认知中‘类比泛化’的能力打开了新思路。在未来高成本、稀疏信号的 RL 场景中，IM 可能成为一种主流范式。需要我帮你写一个 slide 页讲这个“意义”？或者做一个图来表达“TD vs IM”的哲学区别？兄弟我随时在。

2025-04-02 13:04:01 304

原创强化学习——SAC||为什么引入最大化熵（soft goal）

的直觉可以理解为：在给定当前状态的情况下，策略应该在不确定的情况下保持一定的随机性，而不是总是选择一个确定的动作。意味着让智能体的行为不那么确定和固定，而是鼓励它去探索更多可能的选择，这样它就不会陷入过早的局部最优。因此，最大化熵是 SAC 的一个关键创新，它使得 SAC 在强化学习中的探索和利用之间达到了更好的平衡。在策略中，较高的熵表示智能体的行为更为随机，较低的熵表示行为更为确定。：尝试新的、未知的行为，可能导致更大的回报，但也可能浪费时间。，确保策略保持一定的随机性，从而促进更多的探索。

2025-04-02 10:02:08 413

原创位置编码汇总 # 持续更新

看了那么多还没有讲特别好的，GPT老师讲的不错关于三角函数编码。

2025-04-02 00:01:08 400

原创 DeepScaleR详细讲解

Problem || Answers || Solutions # DeepScaleR用的ORM而非PRM，通过final result来奖励。看来训练推理框架都脱离不开Verl。训练集大约40.3k条。

2025-04-01 02:22:01 158

原创 RAG大集合，基础以及优化

RAG

2025-03-31 16:42:23 142

原创为什么KV有Cache,Q没有？

因为Q实时随着每步token进来算就行，但output的计算那要历史KV的参与，所以提前缓存好，有利于减少计算量，以空间换时间。

2025-03-31 16:39:44 117

原创 CORS 跨域请求

什么是 CORS？一文搞懂 CORS 原理！什么是 CORS？CORS 的原理是什么？为什么需要 CORS？在这篇文章 - 掘金。

2025-03-31 15:44:50 109

原创拿GRPO距离，用RL训练LLM如何理解这个时候Reward model是一个已经训练好的深度学习模型还是说reward model是简单的规则 LLM在这个RL过程中扮演什么角色兄弟

模块扮演角色是否训练用途LLM策略网络 πθ✅（在训练）生成文本奖励函数 R(x, y)❌（已训练好）给生成打分GRPO优化器（RL）❌用 reward 更新 LLM 策略人类反馈RM 的监督数据✅（训 RM 用）提供偏好信息。

2025-03-29 11:15:03 282

原创 AI教育业务资料#考虑到太垂直的内容不用教，概念上理解差不多

大模型训练全解析：预训练、微调、强化学习，一步到位！

2025-03-28 02:29:21 73

原创强化学习-解惑？① 一般强化学习的value model 是不是就是Actor-critic的 Critic呢② 那么V(s)和 Q(s,a)区别是啥呢

在强化学习中通常指代用来估计状态或动作的价值函数的部分。在方法中，Critic计算并提供这些价值函数的估计，评估当前策略的好坏。因此，可以说Critic就是强化学习中的，它的主要任务是提供一个估值机制，用来指导Actor改进策略。

2025-03-28 02:05:25 308

原创 LLm中Add token的操作，一般在微调过程（经典）

Add token操作在LLM微调中

2025-03-26 20:34:44 854

原创多模态工作idea讨论

把图像 embedding 线性或非线性投影到语言 embedding 空间，让语言模型把图像当成前缀上下文一起处理。这样模型结构简单，推理快，还能发挥 LLM 强大的语言理解与推理能力。如果你想，我也可以画张图解释它和 Q-former 或 cross-attention 的对比流程图～4o。

2025-03-23 20:22:44 558

原创指令微调（Instruction Finetuning），有点底子就能看懂。

参考小红书用户：“想变厉害的大白菜”

2025-03-23 19:58:41 135

原创 Clip Blip Qlip 擦到底还有多少lip。LIP宗族：Clip,Blip,Qlip,Alip...（学不了） AI 圈“lip系模型大赏”开场白[特殊字符]

Lip其实就是Language-Image Pretraining. 和其中 Language-Image和Vison-Language本质没啥区别。哈哈你这句话太有意思了，简直就是 AI 圈“lip系模型大赏”开场白 😂确实是最近几年爆火的**视觉语言模型（VLM）**家族成员，而且名字越取越像，越读越容易拌嘴。

2025-03-23 16:35:00 918

原创 Reward-Hacking简单理解以及实际遇到的情况：

Reward hacking 是由于目标函数（reward function）和真实意图（human intent）之间存在偏差，智能体学会了钻系统的漏洞，获取高奖励但并没有完成预期任务。类型描述例子智能体抓住图像或传感器输入中的偏差总是抓靠近摄像头的物体行为成功但语义不对“清理桌面”变成“清空桌面”子任务顺序乱但 reward 没惩罚“先放后拿”也被判为成功语言模型生成的 plan 有漏洞但被执行了LLM 误分解导致逻辑错误。

2025-03-23 10:48:41 478

原创具身智能||Spatial-LM解读

36氪获悉，在GTC2025全球大会上，群核科技宣布开源其自主研发的空间理解模型SpatialLM。该模型仅通过一段视频即可生成物理正确的3D场景布局。据了解，SpatialLM突破了传统大语言模型对物理世界几何与空间关系的理解局限，让机给定一个 RGB 视频，我们使用 MASt3R-SLAM 【得补补课了】来重建 3D 点云。然后，SpatialLM 将这些密集的点云转换为结构化表示【本质就Json呗】。点云编码器将点云编码为压缩要素，LLM 生成描述场景的场景代码，这些代码可以转换为 3D 结构布局。

2025-03-22 11:19:38 332

原创强化学习分类

https://zhuanlan.zhihu.com/p/645324378强化学习详解：价值、策略与模型方法-优快云博客

2025-01-30 19:19:18 145

原创 ‌马尔可夫决策过程-笔记

MDP是RL的理论基础‌‌。MDP得名于俄国数学家，以纪念其对马尔可夫链的研究。‌。

2025-01-30 18:11:08 596

原创蒋家资料记载

以蒋俊明太爷爷为原始节点进行记录。

2025-01-18 01:34:22 422

原创忆沧白：从水驿木洞到东京的漂泊之旅（上）

青瓦白墙，兰蕙菊香，窗明几净，这座建在通往南川的交通要道上的宅院，是一座悬山式穿斗巴渝民居建筑，房屋坐南朝北，依据地形呈三合院布局，由朝门、前正房、后正房、厢房及天井组成，一楼一底共25间，建筑面积587平方米，占地约480平方米。邹容因离经叛道的反清言论，被官府“以其聪颖而不端谨，不合条件”，取消了官费留学资格，性格刚毅的他决定自费留学日本，与父亲邹子潘文争武斗，在沧白等人的帮助下，终于成行。望子成龙的杨耀廷夫妇，对儿子悉心教诲，沧白6岁被送入私塾，熟读唐诗宋词，能吟四书五经，成为乡亲羡慕的对象。

2025-01-18 01:33:39 77

原创夏普比率的大白话解释

投资值不值得冒风险。越高越好，说明回报和风险的比例越划算。如果是负数，说明投资连无风险收益都跑不过，还冒了风险，那就很差了。希望这个解释能让你更容易理解！

2025-01-18 00:53:28 402

原创忆沧白：从水驿木洞到东京的漂泊之旅（上）

杨沧白（1881—1942）

2025-01-15 21:02:04 216

原创 universal features guided zero-sot category-level object pose论文解读

论文地址：https://arxiv.org/pdf/2501.02831

2025-01-11 23:26:39 84

原创 Omni3d-Note

IoUness 是一种针对区域提案网络（RPN）的创新设计，通过直接预测区域与真实目标的 IoU 而非目标存在性，大幅提升了模型在数据多样性和标注不完全情况下的鲁棒性与性能。这种方法尤其适用于像 OMNI3D 这样的大规模、多领域数据集。

2025-01-09 14:04:24 638

原创 Omni3D这篇工作和6d-pose estimation任务有区别吗或者异同因为我感觉6D姿态估计也是预测位置和旋转 Transition 和 Rotation

和这篇工作（Cube R-CNN 的 3D目标检测）确实在目标和方法上有许多相似之处，但也存在显著的差异。

2025-01-07 09:53:24 716

原创 3D Object Detection和6D Pose Estimation有什么异同？

都是计算机视觉领域的重要任务，广泛应用于机器人、自动驾驶和增强现实等领域。虽然它们在目标上有所重叠，但在定义、输出和实现方法上有明显的不同。两者可以结合使用，例如，先通过3D检测识别目标物体的大致位置，再用6D姿态估计精确获取物体的旋转和平移信息，用于更复杂的任务。

2025-01-05 15:54:53 1033

原创 Nerf笔记

NeRF详解-优快云博客十分钟带你快速入门NeRF原理_哔哩哔哩_bilibili

2024-12-25 22:53:32 103 1

原创 Diffusino Policy学习note

Diffusion Policy 可以被视为一种以监督学习为基础的方法，但它结合了生成式模型的特点。严格来说，它是基于生成建模的监督学习方法，通常用于行为克隆或策略生成任务。它不依赖强化学习的奖励信号，而是通过学习专家数据分布生成动作策略。Diffusion Policy 的输出格式可以是单步动作动作序列概率分布，或根据任务需求设计的多模态和复合输出。它的输出灵活多样，能适配从低层次控制到高层次规划的不同任务。

2024-12-19 17:33:28 543

原创搞懂Diffusion原理

Diffusion目前理解主要是可以用在生成领域，比如生成视频、音频、图像、时序预测、机器人动作序列。真的讲的很好，浅显易懂，推荐，推荐。

2024-12-18 20:18:46 239

原创读博期间交流（一）和师弟交流

工资开的差不多，但是听说腾讯那边压力小点，同时室友也去了，就都一起去了。真不错给到了60个（第一年，因为保密，后面就不能再说了），恩特有AAAI（实习的时候投出去的），还有其他再投。搞AIGC，之前给人换装啥的。他也有同学毕业去私企的昆仑万维搞AI 拿80 年初因为Chatgpt概念暴涨翻倍的公司。今年年初3月份的时候去实习，刚刚开始字节远程实习（海投），然后远程了一个月，让去线下，然后就去线下待了一个月，恩特说混熟了就好，字节实习有转正的压力。研三刚毕业，拿了字节和腾讯的offer最后去了腾讯。

2024-12-17 23:19:55 158

原创大象机器人资料整理

配件（mycobot系列）产品手册：吸泵的使用重要。

2024-09-26 01:41:39 294

原创增强GPT4v的Grounding能力，video-level

开源链接：appletea233/AL-Ref-SAM2: AL-Ref-SAM 2: Unleashing the Temporal-Spatial Reasoning Capacity of GPT for Training-Free Audio and Language Referenced Video Object Segmentation (github.com) In this project, we propose an Audio-Language-Referenced SAM 2 (AL-

2024-09-24 11:02:40 507

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

UR5机器人资料（高级培训）

UR5机器人资料、UR5机器人资料

基于yolov4模型的目标检测与计数应用.zip

基于深度学习天猫复购预测.zip

车辆与车牌检测并实现计数

PCB注意事项.pdf

PCB设计经验总结大全.pdf

Matlab7.0完整版

LCD12864结合Arduino显示图片、文字教程和源码

Windows系统下CMD指令批处理教程.rar

labuladong的算法小抄

空空如也