music&movie-优快云博客

原创多模态工程师面试--准备

图像生成的应用场景：https://blog.youkuaiyun.com/weixin_42181686/article/details/152329682主流模型对比：https://blog.youkuaiyun.com/weixin_52582710/article/details/146297237https://blog.youkuaiyun.com/Liudef06/article/details/150264998https://blog.youkuaiyun.com/gitblog_00856/article/details/15209

2025-11-12 23:29:38 152

原创已阅读的好文

姜富春聊 DeepSeek：https://zhuanlan.zhihu.com/p/16730036197https://zhuanlan.zhihu.com/p/20356958978张斯俊聊 RL：https://zhuanlan.zhihu.com/p/109498587https://zhuanlan.zhihu.com/p/111257402https://zhuanlan.zhihu.com/p/111049450https://zhuanlan.zhihu.com/p/11099839

2025-10-30 14:48:30 134

原创 transformer基础组件

绝对位置编码：【Transformer系列】深入浅出理解Positional Encoding位置编码-优快云博客Transformer中的位置编码：绝对位置编码、相对位置编码与旋转位置编码_transformer位置编码-优快云博客

2025-08-15 10:25:26 176

原创面试的问题

主题：LLM相关、多模态相关、python编程、java编程。

2025-06-25 02:41:01 341

原创算法工程师认知水平要求总结

要成为一名合格的算法工程师或算法科学家，需要达到的认知水平不仅包括扎实的技术功底，更涵盖系统性思维、问题抽象能力和工程实践智慧。保持对技术本质的深度思考（如理解Attention机制本质是加权记忆检索），比掌握千百个模型更重要。认知水平的终极体现，是在资源约束下做出。三阶：预见潜在问题（如提前设计模型监控应对数据漂移）二阶：定义关键问题（如发现业务核心瓶颈）：在F维（认知进化）建立自我驱动机制。一阶：解决明确问题（如实现某个模型）：在D维（工程落地）形成闭环能力。真正合格的算法专家应具备。

2025-06-08 23:17:39 1202

原创 FunASR和paraformer的关系 && 语言识别模型和vad_model、punc_model、spk_model的关系

FunASR：模块化语音处理框架，集成VAD、ASR、PUNC、SPK等组件。Paraformer：FunASR中的高效ASR模型，支持工业级长音频和实时场景。协作关系：VAD、PUNC、SPK模型围绕ASR核心，分别处理语音分段、标点恢复和说话人分离，共同实现“语音→结构化文本”的完整功能。

2025-06-04 12:13:42 1934

原创 qwen-0.5b小模型的用处和显存要求

Qwen-0.5B 的预训练 (Pretrain) 需要高显存卡或多卡并行（15-40+ GB）。SFT 微调在消费级显卡上可行（全参10-30+ GB，PEFT 2-8 GB）。RLHF (PPO) 训练显存需求极高（30-80+ GB），通常需要专业级多卡集群。DPO 训练需求低于 PPO（全参20-60+ GB，PEFT 5-15 GB），在高端消费卡上使用 PEFT 是可能的。PEFT (尤其是 LoRA) 是大幅降低 SFT 和 DPO 显存需求的关键。Qwen-0.5B 的核心价值在于其。

2025-06-01 16:51:55 1920

原创手写系列——transformer网络完成加法和字符转译任务

【代码】手写系列——transformer网络完成加法和字符转译任务。

2025-05-10 10:25:24 416

原创 vmware虚拟机中的ubuntu系统待机后能显示ip地址但是不能连通本地windows网络

重启VMware NAT Service服务。

2025-05-04 23:10:03 166

原创具身系列——比较3种vpg算法方式玩CartPole游戏（强化学习）

文档2方式参考：https://gitee.com/chencib/ailib/blob/master/rl/vpg_batchupdate_cartpole.py。文档1方式参考：https://gitee.com/chencib/ailib/blob/master/rl/vpg_baseline_cartpole.py。文档3方式参考：https://gitee.com/chencib/ailib/blob/master/rl/vpg_standard_cartpole.py。

2025-05-04 11:47:24 878

原创具身系列——Double DQN算法实现CartPole游戏（强化学习）

【代码】具身系列——Double DQN算法实现CartPole游戏（强化学习）

2025-05-04 11:09:50 258

原创具身系列——Q-Learning算法实现CartPole游戏（强化学习）

【代码】具身系列——Q-Learning算法实现CartPole游戏（强化学习）

2025-05-04 10:39:05 281

原创具身系列——比较3种PPO算法方式玩CartPole游戏（强化学习）

入门学习（理解PPO核心逻辑）：选文档3。其代码简洁，注释直接关联论文公式（如Clipped Surrogate Objective），适合新手逐步理解PPO的数学原理。进阶掌握（生产级实现）：选文档2。包含GAE、熵正则化、经验缓冲区等高级技巧，模块化设计符合工程规范，适合复用到复杂RL任务。文档1的定位：适合过渡阶段，帮助理解Actor-Critic分离设计和基础更新逻辑，但缺少最新优化技巧。

2025-05-03 22:41:26 1163

原创 ubiquant比赛系列——分析ubipoker基线算法

对每种状态，在现有手牌和公共牌的基础上，进行1000次模拟发牌，补至7张，计算此时的牌面weight。level = 2，双A双K 若跟注后超过300，放弃。level = 2，不超过双Q 若跟注后超过200，放弃。level =6，跟注，若跟注后低于600，加注到500。level =5，跟注，若跟注后低于500，加注到500。level =4，跟注，若跟注后低于400，加注到500。非对子，最大为K-A：若跟注后超过200，放弃。非对子，最大不超过9：若跟注后超过100，放弃。

2025-04-26 02:36:21 543

原创具身系列——零样本倒水任务

的视觉编码层和策略网络结构，实现缝葡萄等更高精度的操作任务（需增加触觉传感器模拟）。• 采用CLIP模型处理视觉输入，将摄像头画面映射到512维特征空间。• 关节传感器数据（28自由度）与视觉特征拼接，形成680维状态向量。• 采用PPO算法保证训练稳定性（类似搜索中提到的GRPO优化）• 在策略网络中添加跨模态注意力层，实现不同杯具的泛化操作。该实例复现了搜索结果中机器人的核心能力，开发者可通过调整。• 动作频率达到100Hz，满足毫秒级响应需求。• 通过视频编码器提取人类动作的语义特征。

2025-04-25 01:23:07 345

原创在vmware中ubuntu系统因为安装了docker查不到ip地址

问题截图：根据提供的截图信息，可以明确看到ens33网卡处于**物理连接断开（NO-CARRIER）且接口关闭（DOWN）**的状态，这是导致无法获取IP地址的直接原因。

2025-04-25 00:15:48 810

原创 vmware虚拟机中Ubuntu系统磁盘再次扩容_第2次

调整ext4文件系统大小以匹配扩容后的逻辑卷，类似xfs_growfs针对XFS文件系统。根据磁盘信息分析，问题主要出在LVM逻辑卷未完全利用物理磁盘空间。通过以上步骤，可以将未使用的30GB空间整合到根目录或独立挂载使用。LVM允许动态调整磁盘空间，无需重新格式化。标记分区为Linux LVM类型，避免与其他文件系统混淆。已占满68GB，但卷组（VG）未扩展。，总容量67GB（已用86%）：1MB（BIOS启动分区）：2GB（/boot分区）：68GB（LVM物理卷）卷组），优先选择此方案。

2025-04-15 11:16:58 395

原创低资源需求的大模型训练项目---3、综合对比与选型建议

• 希望全面学习工业级大模型全流程（预训练→微调→强化学习→部署），且具备中端显卡（如RTX 3060）的用户。：阿里云提供了完整的预训练、微调、强化学习（RLHF）代码和文档，支持从数据处理到模型部署的全链路实践。：支持3小时内从零训练模型，提供预训练、SFT、LoRA、RLHF-DPO全流程代码，适合快速实验。：显存需求最低（2GB），且从零手搓全流程（架构→预训练→评估→应用），适合系统性学习底层原理。• 预算极低（仅入门级显卡或CPU）、希望快速验证算法原型（如LoRA微调、蒸馏）的用户。

2025-04-13 21:17:45 1221

原创低资源需求的大模型训练项目---调研0.5B大语言模型

• 参数仅0.5B，采用共享FFN设计降低冗余，在资源受限设备（如手机、平板）上推理速度达147 tokens/s，内存占用仅350MB。• 基于0.5B模型的思维链优化版本，通过软化奖励机制（分步得分）实现长思考链生成，但存在收敛至短推理模式的风险，需结合课程学习逐步训练。：数学推理、长文本逻辑处理准确率显著低于7B+模型（如Qwen2.5-72B的GSM8K得分95.8 vs. 0.5B的9.7）。（如百万级Token），建议使用A10或更高性能显卡，以避免显存瓶颈导致的频繁数据加载中断。

2025-04-13 20:11:22 1848

原创调研大模型训练语料处理工具

结合文档解析引擎（TextIn文档解析）、文本向量模型（TextInEmbedding）和OpenKIE信息抽取工具，支持多格式文档（PDF、Word、图表等）的结构化处理。通过合理选择工具，可提升语料处理效率50%以上（如olmOCR节省GPT-4o成本的97%），建议结合具体需求进行技术验证。◦ 开源（Apache 2.0），支持本地GPU和AWS多节点并行处理，百万页PDF处理成本约190美元。◦ 支持多领域场景（金融、医学、法律），已集成到多家头部厂商的预训练流程中。

2025-04-13 05:16:01 1077

原创调研大语言模型的知识编辑技术

大语言模型（LLMs）的知识编辑旨在通过高效、精准的方式修改模型内部存储的特定知识，以纠正错误、更新信息或消除偏见，同时保持模型的通用能力。：结合Elasticsearch与向量数据库实现混合检索，提升知识更新效率（如MaxKB）：AnyEdit通过分解长文本为知识块并迭代扰动隐状态，解决复杂知识更新问题。：识别影响特定知识生成的神经元（如Knowledge Neuron理论）：频繁编辑可能导致模型崩溃（现有方法将崩溃阈值从千次提升至万次）：支持超大规模模型的协同更新（如万亿参数模型）

2025-04-13 04:56:32 714

原创远程桌面软件调研

开源免费、支持自建中继服务器（规避国际网络延迟）、全协议加密、支持文件传输和剪贴板同步。◦ Ubuntu端：需安装Linux客户端（支持Debian/Ubuntu的deb包）• 客户端安装：选择支持Linux协议的软件（如RustDesk/ToDesk）• 跨运营商（如电信→联通）建议选择BGP线路支持的软件（如ToDesk）• 防火墙设置：开放5900（VNC）、3389（RDP）或软件指定端口。：免费版限速（10 Mbps），专业版（约198元/年）解锁高速通道。

2025-04-13 04:30:54 1186

原创在线编辑数学公式

参考工具：https://www.processon.com/mathtypehttps://www.latexlive.com/• 特点：专业公式编辑软件，支持与Word、WPS等办公软件无缝集成，提供丰富的数学符号和模板库。AxMath还支持科学计算和公式编号管理，适合学术写作。• 适用场景：论文、教材编辑，需频繁插入复杂公式的文档场景。• 优势：图形化界面操作简单，支持LaTeX语法输入与实时预览。• 特点：基于TeX的排版系统，通过代码编写公式（如），支持复杂数学符号和公式结构（如矩阵、方程

2025-04-05 14:51:49 3206

原创低资源需求的大模型训练项目——调研MiniMind/白盒子指南

仅需单张RTX 3090显卡（24GB显存），支持3小时完成26M参数模型的端到端训练。• 混合专家架构（MoE）：426M参数版本仅激活27.5亿参数。：2GB显存即可运行，支持RAG/Agent等高级功能的手搓实现。• 梯度累积技术：支持小批量训练（batch_size=16）• LoRA适配（任务迁移）：仅微调1%参数即可适配新场景。• 预训练（语言理解）：基于通用语料建立基础语言能力。• 动态批处理：自动调整序列长度（32-128）• 指令微调（对话能力）：通过。

2025-04-02 14:06:41 630

原创具身系列——Diffusion Policy算法实现CartPole游戏（模仿学习）

该代码实现了一个基于扩散模型（Diffusion Model）的强化学习策略网络。该实现展示了扩散策略的核心思想，但完整的扩散策略还需要实现完整的逆向采样过程，并可能需要调整噪声调度参数以获得更好的性能。：在动作空间逐步添加高斯噪声，将真实动作分布转化为高斯分布。：通过T步逐渐将专家动作添加高斯噪声，最终变成纯噪声。为噪声调度参数（网页4][网页5][网页8]）。：训练神经网络预测噪声，通过T步逐步去噪生成动作。预测噪声残差（网页5][网页6][网页8]）。（网页4][网页8][网页11]）。

2025-03-26 14:10:49 664

原创 Agent系列——Manus调研

通过这个代码示例，可以清晰看到Manus框架将Agent技术工程化的实现路径。开发者可基于此框架扩展更多工具链（如集成Selenium实现自动爬取招聘网站），构建完整的智能体应用系统。• 执行代理：基于ReAct模式实现，每个操作对应工具调用（如PDF解析）• 记忆代理：使用ChromaDB向量数据库存储岗位技能要求。• 规划代理：采用二叉树分解算法，将复杂任务拆解为原子操作。• 技能匹配准确率达到92%（GAIA基准测试方法）• 通过Docker容器隔离执行环境。• 使用gVisor实现内核级隔离。

2025-03-24 16:28:17 333

原创具身系列——NLP工程师切入机器人和具身智能方向

职位高频词汇：VLM调优经验、核心算法（Diffusion、RL、VIT）、pytorch、仿真环境（Isaac Gym、Mujoco、webots）

2025-03-24 14:56:45 1286

原创音视频系列——Websockets接口封装为Http接口

本示例展示一个支持双协议（WebSocket流式接口+HTTP同步接口）的语音转文本模型服务，并提供将WebSocket接口封装为HTTP接口的代码实现。以上实现完整支持两种协议的混合调用模式，开发者可根据实际场景选择适配方案。如需测试完整代码，建议参考WebSocket官方测试方法建立端到端验证流程。• HTTP接口接收完整文件后自动切分为WebSocket流式分片。• 设置合理的数据块大小（建议1-4KB）• WebSocket连接存活时间。• 支持分片音频流实时识别。• 音频流分片处理延迟。

2025-03-22 00:12:48 2218 4

原创 Agent系列——agent领域的mcp协议讲解

通过该实现，开发者可将任意LLM应用快速接入企业级数据库系统，同时保障数据安全性和协议标准化。如需完整代码示例，可参考Anthropic官方SDK文档。MCP（Model Context Protocol）是由Anthropic提出的开放协议，旨在。），MCP协议将自然语言转换为SQL查询并返回结构化结果。“显示2025年第一季度北京地区销售额超过10万的订单”调用LLM生成SQL。

2025-03-21 11:21:20 776

原创环境准备系列——使家里的工作站在公网上也可以通过ssh进行访问

先尝试申请公网IP+DDNS方案（延迟最低），若无公网IP则使用FRP穿透。所有方案均需配合密钥认证和防火墙加固。• 选择服务商（如No-IP、DynDNS），获取形如。• 在路由器或服务器安装客户端，输入账号与域名。：家庭宽带拥有公网IP（需向运营商申请）◦ 内部IP：服务器局域网IP（如。：无公网IP时通过第三方服务器中转。◦ 内部端口：SSH服务端口（如。• 登录路由器管理界面（通常为。：公网IP动态变化时自动解析。◦ 外部端口：自定义（如。

2025-03-21 11:17:18 763

原创多模态系列——调研可在笔记本电脑端部署的多模态大模型

如需具体模型的部署配置文件或性能测试数据，可参考各项目的GitHub仓库（Gemma、Janus-Pro）。• 多模态支持：文本、高分辨率图像、短视频混合输入，动态图像切片技术可处理1小时视频仅需20秒。• 轻量化设计：1B参数模型支持CPU+GPU混合推理，显存占用可压缩至6GB。• 显存占用：4位量化后仅需4-5GB显存，剩余资源可用于图像预处理和缓存。• 多任务能力：同步支持图像生成（文生图）与理解（OCR+场景分析）：需平衡性能与资源消耗的场景（如视频分析）：侧重轻量化与图像生成能力（如创意设计）

2025-03-19 04:25:25 2166

空空如也

空空如也