- 博客(281)
- 资源 (20)
- 收藏
- 关注
原创 腿足机器人之十四-强化学习SAC算法
在实际机器人训练中,PPO适合在仿真环境中大量的进行,这是因为仿真环境可以产生大量的数据,而这正好满足了On-Policy 所需的大量交互数据,但是SAC的Off-Policy 特性复用旧数据,这意味着在真实世界中收集的数据可以服用,这提高了学习复杂动态的能力(如适应不同地面摩擦力),二者的结合是常用的方法。熵的概念源于信息论,原本表示的是编码信息所需要的比特数,信息量越少(确定性高),需要的用来编码信息的比特数也越少,这里熵衡量的是策略的随机性,熵越大策略越随机,这样有助于探索。
2025-02-28 21:00:00
1104
原创 腿足机器人之十三-强化学习PPO算法
PPO(Proximal Policy Optimization)算法稳定性强,适合大多数的仿真环境,如MuJoco/Isaac Gym,是初上手的首选,SAC(Soft Actor-Critic )算法在需要高效探索或真实机器人部署(样本成本高)时更优,际工程中,PPO+SAC 组合(如 PPO 微调 + SAC 迁移)已成为提升鲁棒性的常见方案。的,OpenAI一直想做的是AGI,chatGPT是AGI决策中枢,而机器人是AGI在现实世界交互的核心,而机器人运动、姿态控制室交互中的核心。
2025-02-27 19:00:00
1213
原创 腿足机器人之十二-VLA视觉语言动作模型
传统控制方法无法直接理解人类模糊或复杂的指令(如 “去二楼查看是否有异常”),需依赖固定脚本,有了VLA,就可以通过视觉感知环境语义(如识别 “楼梯” 或 “坑洞”),结合语言指令(如 “上楼” 或 “绕过障碍”),生成适应地形的步态和路径规划。多模态感知与对齐视觉编码器:使用 ViT 或 ResNet 提取环境特征(如地形高度图、障碍物位置)。示例:从 RGB-D 图像中分割出可通行区域与危险区域(如波士顿动力 Spot 的视觉导航模块)。
2025-02-23 20:15:13
1229
原创 腿足机器人之十一- 深度强化学习
深度学习技术已经在语音、图像、视频、文本等领域应用广泛,其和强化学习的结合使得基于深度学习的大模型能力更是上升一个台阶。因而用在腿足机器人的运动中枢上也不足为奇,但是和电子化格式的语音、图像、文本而言,机器人的运动姿态涉及到真实的物理世界,要符合物理规律和宏观力学定律。
2025-02-22 10:10:11
1235
原创 腿足机器人之十- SLAM地图如何用于运动控制
在有了地图之后,需要找到起点到目标点的最优路径(避开已知障碍物),首先进行全局路径规划(基于静态地图),常用的算法有A*、Dijkstra、RRT*等。然后再使用局部路径规划(避开动态障碍物,实时调整路径),常用的算法有动态窗口法(DWA)、人工势场法。和到底机器人相比,腿足机器人可以双脚离地(小跑、跳跃),SLAM地图需要包含高度信息,因此使用三维地图,这可以使用点云地图、高程地图以及体素地图。零力矩点(ZMP)稳定性判据。2.SLAM与运动控制流程。2.滚动优化:在时间窗口。条腿的地面反作用力,
2025-02-20 20:24:24
857
2
原创 腿足机器人之九- SLAM基础
机器人运动控制的核心目标是让机器人在环境中安全、高效地移动,前面的博客中主要阐述的是腿足机器人高效的移动(关节结构、高层运动规划、中层运动、逆运动学以及底层的PD电机驱动控制),而SLAM(Simultaneous Localization and Mapping,即时定位与地图构建) 是机器人实现自主导航的基石。因此,SLAM为运动控制提供了环境感知和定位信息,两者结合才能实现真正的自主导航。
2025-02-18 19:00:00
877
原创 腿足机器人之八- 腿足机器人动力学
腿足机器人的运动学解决“如何到达目标位置”的问题,动力学解决“如何高效稳定地到达”的问题。两者结合,使机器人能够在复杂环境中实现类生物的灵活运动,是仿生机器人领域的核心技术。如波士顿动力Atlas通过逆运动学规划跳跃动作,结合动力学模型计算关节力矩以实现空翻, MIT Cheetah利用简化动力学模型(弹簧负载倒立摆)实现高速奔跑,同时优化能量效率。
2025-02-16 11:55:31
1508
原创 腿足机器人之七- 逆运动学
偏航(Yaw):绕Z轴旋转,角度记为ψ\psiψ俯仰(Pitch):绕Y轴旋转,角度记为θ\thetaθ横滚(Roll):绕X轴旋转,角度记为ϕ\phiϕ基座标系(O₀)设在髋关节中心,X轴向前,Y轴向左,Z轴向上。
2025-02-16 10:06:56
1384
原创 腿足机器人之六- 前向运动学
基坐标系(base frame):通常固定在机器人躯干或髋关节处(如上图中间的圆圈位置,在髋关节的旋转中心),通常以髋关节的初始位置为原点,Z轴(Yaw)垂直于躯干平面(竖直方向,人体直立时从脚到头的连线),X轴(Roll)指向机器人前进方向,Y轴(Pitch,从左肩到右肩的连线)。关节坐标系:每个关节的局部坐标系,用于描述相邻连杆的相对运髋关节坐标系:与基坐标系重合(初始状态),当髋关节偏航(Yaw)时,绕基坐标系的Z轴旋转。膝关节坐标系:位于大腿末端,绕髋关节俯仰轴(Y轴)旋转。
2025-02-15 19:33:38
1335
原创 腿足机器人之五- 粒子滤波
上面的离散的可能状态如何求得?分为静态和动态法,静态分解技术依赖于一个预先选定的固定分解方案,这种方案在分解过程开始前就已经确定,且不考虑被近似的后验概率分布的具体形状。这类技术能更有效地针对状态空间中后验概率较大的区域提供更高的分辨率,而在概率较低的区域采用更粗糙的分解,从而节省计算资源并提高效率。这些权重是根据每个粒子相对于观测数据的似然性来分配的,即反映了每个粒子如何适应观测数据的程度。通常粒子的状态总数M是一个很大的数,如M=1000,在一些实现中M也是时间或者和后验概率有联系的其他变量的函数。
2025-02-15 08:46:02
898
原创 腿足机器人之四- 卡尔曼滤波
机器人的任务是根据传感器读取和之前的移动历史估计自己的当前位置。这里的关键是如何根据新的传感器数据更新机器人对当前位置的估计。
2025-02-14 08:59:08
913
原创 腿足机器人之二- 运动控制概览
腿足机器人的所有运动,最终都会反应在对关节的控制上,大体上关节的运动一般采用运动学和强化学习两类方法,如运动学逆解算法用于规划关节角度(如肘式/膝式腿的几何求解),强化学习(RL)优化步态生成,如NVIDIA Isaac Lab端侧部署方案。RL方法的一个挑战是获得训练数据,在机器人行走之前,采集数据的成本是高昂的,所以一般训练都是先基于仿真环境,在在仿真中定义奖励函数(如前进速度、能量效率、姿态稳定性),然后通过PPO或SAC算法优化策略模型预测结果,然后再迁移到实际的环境中。例如,给定足端目标位置。
2025-02-13 18:50:09
1326
原创 腿足机器人之一- 机械与电子组件概览
腿足机器人主要结构是由刚体(links)和关节(joints)组成的,在这种设计结构中,每个刚体部件被称为“连杆”,它们是支撑结构,不仅仅承载着装置自身的重量,还可能面对工作时的各种负载。从腿足机器人的角度看,通常是将分解之后的运动姿态,比如某一个关节角度信息直接传给控制器,控制器内部将目标位置信息通过PID/PD算法转为电机(motor)控制信号,然后为电机提供合适的电流电压(控制器的正负3.3v带不动力矩较大的关节运动),然后通过将电能转成电机机械能,带动机器人的运动。齿轮是带齿的机械组件。
2025-02-13 18:49:46
1640
2
原创 大模型之三十三- 开源Melo 语音合成
文本到语音(TTS)系统从基于基础音素的模型演变成复杂的端到端神经方法,这种方法可以直接将文本转换为语音。这一变革得益于深度学习的进步和计算能力的提升,已经在语音的自然度、韵律控制和跨语言能力方面取得了重大进展。现代TTS系统现在服务于多样化的应用领域,从智能助理到辅助工具和人机交互界面。
2025-01-19 12:45:04
424
原创 第四章 神经网络声码器
WaveNet 是DeepMind 提出的一种深度学习声码器,2016 年 9 月的一篇论文中进行了概述[1],旨在能够直接从原始音频数据生成语音。WaveNet 最初是为了改进传统的文本到语音(TTS)系统的语音质量提出的,其采用卷积神经网络生成音频波形,实现了比传统方法更自然的声音。WaveNet 的主要挑战在于需求巨大的计算资源,这使得它在实际应用中受到了限制。
2025-01-12 23:04:26
1240
1
原创 第三章 WORLD 声码器
WORLD Vocoder由日本学者开发,主要用于提高音频信号处理时音质的保真度,通过对传统的Vocoder方法进行改良,提供更加清晰的语音合成效果,常用于语音研究和音乐制作,其优点在于可以用在实时系统上,在算力和效果上做了很好的平衡。谱分析(Spectral Analysis),谱分析是用来从语音信号中提取声谱特征的技术。它涉及到将语音信号分解为一系列的频率组成部分,以便于更细致地理解和处理这些成分。
2025-01-12 15:08:51
1001
原创 第二章 线性预测编码(LPC)
这里主要是LPC声码器,这部分的内容绝大部分摘自我的专利《》,对内部细致的实现,以及LPC声码器在音频编解码上如何使用的,可以参看该专栏线性预测编码 (LPC) 是一种主要用于音频信号处理和语音处理的方法,用于使用线性预测模型的信息以压缩形式表示数字语音信号的频谱包络。LPC 通过估计共振峰、从语音信号中去除它们的影响以及估计剩余“噪声”的强度和频率来分析语音信号。去除共振峰的过程称为逆滤波,减去滤波后的建模信号后剩余的信号称为残差。LPC 是语音编码、语音合成以及歌声合成中使用最广泛的方法。
2025-01-11 20:22:19
1201
原创 第一章 相位编码器(Phase Vocoder)
开篇先留一个问题,现在TTS大模型、音乐生成大模型的“电音”/“机器音”/“合成音”、“金属感”、以及清晰度低在信号层面该如何解释?
2025-01-11 17:50:49
1284
原创 大模型之三十二-语音合成TTS(coqui) 之二 fine-tune
在[shichaog @优快云]中提到了xttsv2的fine-tune。 这里公布一下结果。
2024-10-15 21:02:24
801
1
原创 大模型之三十一-音源分离
因为TTS模型训练还有几个结果没出,本篇先介绍一下音乐分离模型吧。其实可能你也猜到了,一部分TTS的数据是网上爬来的,这种音频可能会有背景音之类的,这里需要将乐器类的伴奏去掉。所以就此介绍一下本篇文章吧。在选择和使用音乐源分离工具时,没有“一劳永逸”的最佳方案,因为每首歌曲的录制和混音方式都有所不同。因此,尝试和比较不同的模型和设置,根据具体情况调整策略,是达到最佳分离效果的关键。因为本篇集中在对人声的提取,所以重点关注于vocal的性能。
2024-09-10 20:10:09
3259
1
原创 大模型之三十-语音合成TTS(coqui xTTSv2)
CoquiTTS是一个开源的文字到语音(Text-to-Speech,TTS)系统,旨在使语音合成技术对研究人员、开发者和创造者更加可接近。它基于先前的项目。音色克隆,可以提供仅仅3秒的音频就实现声音克隆;跨语言克隆,比如英文到中文,中文到英文等,共计16中语言24kHz采样率,对于speech够了,但是对于Music一般要支持立体声、44.1kHz流式推理延迟小于200ms支持模型fine-tune。
2024-09-09 21:23:10
3984
原创 大模型之二十九-语音识别Whisper推理加速
在上一篇博客《大模型之二十八-语音识别Whisper进阶》中我们留了一个尾巴,就是在流式场景以及如何提升推理速度。
2024-08-31 10:31:10
2092
1
原创 大模型之二十八-语音识别Whisper进阶
在上一篇博客中遗留了几个问题,这里来看一下前两个问题。1.如果不是Huggingface上可以下载的数据该怎么办?2.上面的代码是可以训练了,但是训练的时候loss真的会和我们预期一致吗?比如如下怎么办?
2024-08-29 19:07:51
2147
原创 大模型之二十七-语音识别Whisper实例浅析
output_dir:模型权重存储的位置generation_max_length:在评估时,自回归生成token的最大值save_steps:在训练时,中间的checkpoint将在save_step时被保存eval_steps:在训练时,每eval_steps到达时会评估模型性能report_to:训练的log保持的位置fp16=True,
2024-08-28 21:05:11
9418
1
原创 大模型之二十六- 图像生成Diffusion model实例浅析
在2022年,midjourney、DALL-E以及Stable Diffusion三个文生图模型引爆了机器生产文生图领域,他们的模型能够在可控条件(标签、文本描述)下生成高分辨率、细节丰富的多样性图像,这在视觉上往往难以与真实图像区分。以下是他们几个简单的效果对比图。学术和工业界对他们采用的 Diffusion 模型兴趣迅速增长,导致了大量的研究、改进和创新。这推动了技术的发展和成熟,进一步扩大了它们的应用范围和影响力。本篇文章通过一个汽车图片生成的无条件Diffusion模型阐述这一原理。
2024-08-25 08:48:55
1035
原创 大模型之二十五-人工智能新纪元
下图是文生图、文本生成、视频生成重大标志性事件,目前的人工解决问题的思路变成了,数据+算力,这比以前简单很多,想想看在以前做语音识别,要分解到音素,用高斯混合模型对声学部分建模,然后再用n-gram对语言部分建模,在5年前的前前司还是一个博士团来做语音识别,而现在我一个人在开源的基础上就可以搞出性能远远领先当时博士团识别系统,这是生产力的革命。这意味着以前做过的事,基本上可以用AI重来一遍,比如语音识别,机器人,游戏,语音合成、医药生物、艺术、影视等等,这会对世界产生深远的影响。
2024-08-14 20:45:07
318
原创 大模型之二十四 2024年AI趋势
AI在24年依然会是突飞猛进的一年,24年一些趋势比较明显,有些会是应用上的突破,有些会是技术上的进步,这些特点总结了一些,也欢迎大家在留言中补充自己认为比较重要的24年 AI趋势点。
2024-03-08 09:49:26
737
原创 大模型之二十三 我用大模型写了本小说
番茄小说发布的2022年原创年度报告数据显示,这一年里,入驻番茄小说的原创作者数增长迅速,较去年增长300%,番茄小说总稿费上涨91%,其中65%的作者是90后作者。而签约作者最多的五个省份分别为:广东、四川、江苏、山东、河南。阅文集团2022年的年报显示,去年阅文新增了约54万名作家及95万本小说,平均每天新增2602本小说,新人要想从同期中杀出来的难度可见一斑。》是我用大模型写作的小说,感兴趣可以看看,感受一下大模型的小说的,当然这过程中也有笔者的参与。
2024-02-28 13:15:07
7575
2
原创 大模型之二十二 OpenAI sora
解码器的作用是将机器理解的视频信息,即潜在表示,映射成人类可以理解的像素空间,OpenAI表示,过去图像和视频的生成方法通常会将视频调整大小、裁剪或者修剪为标准尺寸,但这会损失视频的生成质量,而patch化就不会,这使得Sora的采样灵活性比较高,并且使得构图和取景更准确。中并没有模型和训练技术细节,但是从参考文献看,主要是Google和Meta的技术文档,更多的是现有技术的整合和优化,Sora的秘诀也是Scaling Law,当模型足够大的时候,就会产生智能涌现的能力。
2024-02-18 18:09:50
1108
原创 大模型之二十一-小语言模型(SLM)赛道开启
当前提到大语言模型,大家想到的都是动辄百亿规模以上的参数量的模型,13B、70B都是稀疏平常的,但是目前从模型层面来看,拐点已经来临,早期为了效果怼上去,就是训练数据越多越好,模型越大越好,事实也确实证明这么发展的路子的是对的,撇开医疗、法律等行业应用,但就模型层面多模态的趋势已经非常明显,这是巨头企业、政府投入的,绝大大部分公司还是围绕开源的10B左右做行业应用。模型层面接下里的另一个趋势是小,往小了的方向发展。
2023-12-21 18:00:30
1877
原创 大模型之二十-中英双语开源大语言模型选型
从ChatGPT火爆出圈到现在纷纷开源的大语言模型,众多出入门的学习者以及跃跃欲试的公司不得不面临的是开源大语言模型的选型问题。基于开源商业许可的开源大语言模型可以极大的节省成本和加速业务迭代。还有很多其他的开源中英大语言模型,但基本都有Llama的影子,有些是直接扩充Lllama的词汇再用新的数据集重新训练,这些大语言模型包括等,这里就不一一列出了。
2023-11-17 23:40:49
2045
原创 大模型之十九-对话机器人
大语言模型的最早应用是Chatbot,其实我最早接触语义理解在2014年,2014年做智能音箱的时候,那时也是国内第一批做智能音箱的,在现在看起来当时的智能音箱比较傻,很多问题无法回答,长下文效果也不好,多轮对话效果就更差了,那时对话使用的主要技术是基于规则+知识图谱,所以主要还是停留在命令词识别基础上的交互,比如放音乐类、操控智能家电以及问天气等有限的几个范畴,更多的扮演的事assistent角色,开放式聊天做的并不好。
2023-10-28 21:41:42
1319
原创 大语言模型之十八-商业思考
大语言模型在翻译、知识问答、写作、摘要、搜索、代码开发等场景得到了广泛的应用,一些策略是将大语言模型集成到公司的现有产品,比如微软的Office接入ChatGPT。当前大语言模型盈利情况堪忧,今年 5 月有媒体曝出因去年开发出 ChatGPT,OpenAI 亏损 5.4 亿美元,微软在 GitHub Copilot拥有 150 万用户的基础上,每月仍倒贴每位用户 20 美元。前面博客主要内容围绕着优秀的基座模型、模型量化以及fine-tune等技术,其核心思想是降低中小公司的技术门槛和使用成本。
2023-10-17 22:28:34
1357
2
原创 大语言模型之十七-QA-LoRA
由于基座模型通常需要海量的数据和算力内存,这一巨大的成本往往只有巨头公司会投入,所以一些优秀的大语言模型要么是大公司开源的,要么是背后有大公司身影公司开源的,如何从优秀的开源基座模型针对特定场景fine-tune模型具有广大的前景,从数据开源、到基座模型到新方法的迭代升级使得个人都有机会践行fine-tune这一过程。
2023-10-12 23:45:10
3073
1
原创 大语言模型之十六-基于LongLoRA的长文本上下文微调Llama-2
增加LLM上下文长度可以提升大语言模型在一些任务上的表现,这包括多轮长对话、长文本摘要、视觉-语言Transformer模型的高分辨4k模型的理解力以及代码生成、图像以及音频生成等。对长上下文场景,在解码阶段,缓存先前token的Key和Value(KV)需要巨大的内存开销,其次主流的LLM模型在推理的时候上下文长度都小于等于训练时的上下文长度。
2023-10-07 21:05:00
3103
原创 大语言模型之十五-预训练和监督微调中文LLama-2
这篇博客是继《》、《》和《前面博客演示了中文词汇的扩充以及给予LoRA方法的预训练模型参数合并,并没有给出LoRA模型参数是如何训练得出的。本篇博客将分析LoRA模型是和训练得到的。还是以7B参数量的模型为例。本篇博客依然基于开源项目。
2023-10-03 22:19:58
3177
7
原创 大语言模型之十四-PEFT的LoRA
在《》和《》中我们都提到了LoRA(低秩分解)方法,之所以用低秩分解进行参数的优化的原因是为了减少计算资源。我们以《》一文中的图3 LLama-2 图例过程为例说明内存的消耗。
2023-10-03 20:00:09
5076
2
原创 大语言模型之十三 LLama2中文推理
在《》一文中已经扩充好了中文词汇表,接下来就是使用整理的中文语料对模型进行预训练了。这里先跳过预训练环节。先试用已经训练好的模型,看看如何推理。
2023-09-28 23:00:00
2668
1
原创 大语言模型之十二 SentencePiece扩充LLama2中文词汇
大语言模型的发展潜力已经毋庸置疑了,如何让中文大语言模型更适合中小公司使用这是一道难题。在模型的选择上我们倾向于选择国外的LLama或者BLoom之类的,而不是百川之类的中文大模型,原因在于从基建到框架到数据国外的开源资料非常多,比如Huggingface Transformer、微软的DeepSpeed、meta的LLama、Pytorch,Google的colab、TensorFlow、BERT,这些公司提供了大量开源的技术工具以及成果。
2023-09-27 23:22:20
2384
深度学习 模型调优 keras mnist
2022-06-06
bluetooth BLE server
2016-12-12
vim 技巧和插件
2015-05-08
linux tcp/ip协议栈
2015-04-22
命名空间 Linux
2014-11-21
Linux系统启动那些事—基于Linux 3.10内核
2014-10-25
Linux310启动
2014-10-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人