- 博客(93)
- 资源 (3)
- 收藏
- 关注
原创 数字人接大模型第二步:语音克隆
推荐XTTS-v2项目,由Coqui公司开发的语音生成模型,专为多语言语音克隆和生成设计。它支持17种语言,包括英语、西班牙语、法语、德语、意大利语、葡萄牙语、波兰语、土耳其语、俄罗斯语、荷兰语、捷克语、阿拉伯语、中文、日语、匈牙利语、韩语和印地语。XTTS-v2的核心优势在于其仅需6秒的音频片段即可实现语音克隆,无需大量的训练数据。此外,它还支持情感和风格转移、跨语言语音克隆以及多语言语音生成,采样率高达24kHz。地址:https://github.com/archwesome/XTTS-v2。
2025-04-28 10:01:38
59
原创 数字人接大模型第二步:实时语音同步
接上例第一步,还是dh_live项目,增加了一个完整的实时对话样例,包含vad-asr-llm-tts-数字人全流程,以弥补之前的只有固定的问答的不足。VAD(Voice Activity Detection,语音活动检测)VAD用于检测用户是否正在说话,从而触发后续的语音处理流程。ASR(Automatic Speech Recognition,自动语音识别)负责将用户的语音输入转换为文本LLM(Large Language Model,大语言模型)
2025-04-27 20:38:44
49
原创 数字人接大模型第一步:表情同步
数字人与大模型结合带来了诸多显著的优势,这些优势不仅提升了数字人的性能和用户体验,还为各行业带来了创新和效率的提升。1. 提升交互自然度和智能化水平多模态交互:大模型使得数字人能够同时处理文字、语音、图像等多种模态的信息,从而与用户进行更加自然和丰富的交互。情感识别与表达:通过大模型的情感分析能力,数字人能够识别用户的情感状态,并根据识别结果调整自己的行为和表达方式。2. 个性化定制高效定制:数字人的形象、声音、动作等均可根据需求进行个性化定制,满足不同场景下的应用需求。
2025-04-24 17:09:43
43
原创 mcp 客户端sse远程调用服务端与本地大模型集成实例
按大模型发展来看,mcp应该会成为应用系统的必须,在此之前是function_calling。大模型今后就是一个底座,对用户是隐藏的。而所有的业务系统和领域小模型会通过mcp万象互联。除非要非常精确与高效,且要边缘部署,才会需要对大模型进行微调与蒸馏,否则mcp应该是一种最佳的部署模式。现在诸如langchain之类的的本地知识库外挂方案,其实并没有把数据集微调到大模型中,只是一种变相的mcp方式。如今mcp已成气候,修炼大成。只是国内的大模型支持微调function的极少,还是openai chatGPT
2025-04-22 17:02:46
103
原创 mcp server、client和本地大模型集成调用
MCP(Model Context Protocol,模型上下文协议) 是一种开放标准协议,它像“USB接口”一样,为AI大模型(如GPT、Claude)与外部工具(地图API、数据库等)提供标准化连接方式。通过MCP,AI无需复杂编程即可调用外部资源,实现更复杂的任务处理,例如路线规划、数据分析等。
2025-04-21 16:17:41
160
原创 将DeepSeek-R1蒸馏为轻量级模型实战
模型蒸馏作为一种有效的模型压缩方法,能够将本地训练好的大型复杂模型的知识转移到小型的高效模型,通过让小型“学生”模型学习大型“教师”模型的输出,在保持较高性能的同时,显著减少计算和内存需求。 在DeepSeek - R1中,Transformer架构的核心组件包括多头自注意力层(Multi - Head Self - Attention Layer)和前馈神经网络层(Feed - Forward Neural Network Layer)。多头自注意力层允许模型在不同的表示子空间中并行地关注输
2025-04-18 16:55:00
49
原创 利用AI软件让照片说话
目前市面上各种免费的工具很多,我主要使用以下几款,组合各个环节的输出,最终达到流畅的输出效果。为什么选择即梦,一开始选择腾讯智影,但对上传的图片要求太高,一定要面容整洁,嘴巴还要闭合。我上传了几次都没有检查通过,所以试了一下即梦,好用得出乎我的意料。
2025-04-10 17:04:18
30
原创 调用deepseek大模型时智能嵌入函数
DeepSeek-R1 当前炙手可热,以其强大的自然语言处理和推理能力而广受赞誉。饶是如此,却并不原生支持函数调用(function_call),这是开发过程中不可或缺的一部分。虽有第三方调校的模型支持,然终非官方自带,还需假以时日。本文虽然简短,应该是全网写得最通透的了吧。万事俱备,上代码运行,注意,ollama部署的模型,openai支持的访问地址为:http://localhost:11434/v1。本机8GB vram,只能用qwen2.5:7b了进行测试了。
2025-03-27 17:37:47
155
原创 小样本微调deepseek大模型
用自定义的小样本数据集,训练deepseek r1 8b 4位量化的模型。安装cuda,torch,Unsloth, huggingface,wandb等,见前述章节;微调服务器配置:单机笔记本显卡4060,32GB ram,8GB vram,
2025-03-26 15:40:09
38
原创 对deepseek进行微调
平台上托管了超过 90 万个开源机器学习模型,提供了超过 20 万个数据集,允许用户托管机器学习演示应用程序,支持使用 Gradio 和 Streamlit 等工具构建交互式应用,提供模型推理 API,用户无需下载模型即可直接调用。缺点是资源需求高,开发周期长,技术难度大,如果没有足够的数据或优化经验,模型性能可能不如现有的预训练模型。模型的计算图和权重。3. .pt 和 .pth 格式:PyTorch 的原生格式,.pt 通常保存完整模型(包括结构和参数),而 .pth 更多用于保存模型的状态字典。
2025-03-07 16:54:22
213
原创 deepseek分布式推理多机部署实践
这种情况下,如果有多台8GB的显卡,是可以考虑上32b的。如果报python not found,在环境变量path中检查一下python路径是不是正确,否则要重装一下python,直接如下命令可以显示:python -V。如果添加节点后显示的ip不对,因为某节点有多个ip,可以先在网络配置中禁用其它不用的虚拟网卡,然后删除该节点后重新安装。报没有合适的节点,上图中,调度方式要选择手动,在弹出框中选择识别的2个节点,且显存之和要小于部署的模型要求的显存。1台windows笔记本,4060显卡,8GB显存;
2025-03-05 17:13:14
319
原创 大模型之群魔乱舞
DeepSeek 可以自己本地搭建,不过对GPU要求较高,本地CPU版本或显存8GB以下者只能搭建1.5B、7B、8B,更何况本身就是一个阉割的蒸馏版,对于更完善的14B、32B、70B、670B只能望卡兴叹了。这三个模型的能力都很强,插件效果(代码解释、注释、修复、优化、上下文问答)都表现更好了,大家可以自己比较。DeepSeek-R1-Distill-14B|32B:CPU:12核(14B)至16核(32B),内存:32GB(14B)至64GB(32B),16GB显存(如RTX 4090)
2025-02-21 16:01:54
85
原创 deepseek在地理信息与智慧农业中的应用设计
DeepSeek生成一系列的标注任务,定义标注规则,拉取要标注的图像,通过DynamicMask引擎实现零样本标注,输出标注框和对应的类别标签,最终用于模型训练样本。DS会会生成一系列的任务,去数据层拉取对应的各期哨兵卫星数据,调用对应的领域小模型生成矢量结果,读取大数据平台行政区划信息,最后导出excel统计文件并展示结果;DeepSeek生成一系列的监测任务,拉取三调耕地、承包地矢量图斑,调用领域小模型检测建筑物位目标,进行位置比对,标记违建建筑。同上,平台自动生成2025年油菜分布的矢量图,并展示。
2025-02-21 11:01:05
120
原创 如何将10m分辨率卫星影像超分成2m
其原理就是选择高分辨率和低分辨率的卫星影像数据,例如使用高分1号(2米分辨率)和Sentinel-2(10米分辨率)的影像,在数据预处理时通过线性回归模型调整低分辨率影像的光谱特性,使其与高分辨率影像的光谱响应一致。4、在Qgis中,导出该底图,选择save as...:弹出框中选择前面保存的矢量文件作为导出范围,指定分辨率为0.5m,取消选择create vrt,保存的文件名为要为字母。我因为在海外服务器,所以这里选择的Google影像,效果是一样的。
2025-02-21 10:52:08
68
原创 十、数字人IP应用方案
背景在当今的数字时代,随着AI技术的突飞猛进,数字人AI已经从概念走向应用,成为知识内容创作领域一股不可忽视的力量。它的出现,在很大程度上极大地提高了内容的生产效率,大有替代知识IP,成为内容IP终结者的趋势。数字人IP,从形象到声音,与知识博主真人的相似度可以达到99%。这种方式带来了真人录制无法比拟的优势,可以实现个人知识博主的规模化生产,7天24小时(24/7)不间断工作。2、行业趋势。
2024-09-19 10:57:53
895
原创 十二、部署自已的企业大模型
基于LangChain+ChatGLM3-13B+minio+Paraformer,其中langchain实现本地知识库微调,chatGlm作为大模型基座,minio作为语音存储库,paraformer作为本地文本与语音识别库。
2024-09-04 15:27:07
368
原创 十二、建立自已的北斗卫星实时定位基站
数据处理中心管理各种采样间隔和时段的不同数据存储、存储包含北斗的GNSS原始观测数据、存储网络模型文件、进行数据的质量检查和转换、定期进行整网的解算保障基准框架的稳定、建立数据共享平台;1)基准站子系统,由单个基准站设施(含GNSS 接收机、天线、UPS、防电涌设备、机柜、交换机、数模转换器光纤转换器等)组成,属CORS网络的数据源,GNSS卫星信号的捕获、跟踪、采集、本地存储与实时数据传输;3) 基准站设备的安装,包括天线电缆的铺设、GNSS天线的安装和天线高的量取,GNSS接收的、UPS电源的安装;
2024-09-04 15:05:53
949
原创 十四、低空安全综合管理服务平台建设方案
1、系统背景由于低空安全研究关系到国家战略安全保障,世界各国相继开展了相关法律法规建设,以及一系列的理论与技术保障研究。为了保障低空空域安全,需推动建立各省级安全管理平台,做好与企业级监控服务平台的管理衔接和数据共享,强化本区域内民用无人机的安全监管工作;加快建设基于民用无人机身份识别和飞行状态的国家级管控平台,建立安全防护体系,强化管控平台自身安全保障能力;加强基于移动通信网络的民用无人机设备进网许可管理;加快民用无人机反制、监测预警技术研究和装备研制,严格控制和规范反制设备使用。2、行业分析。
2024-09-04 14:30:26
2641
1
原创 我的易经代码
后来,生活有些动荡,就没有维护了。后来改成企业版,名为“始皇预测”,用Java Swing编写,支持五大神数,三式,主要应用还是六爻、四柱、风水,其它如称骨、姓名预测等等,历时10年以上,不断改进,真有“闲坐小窗读周易,不觉春去已多时”之感。开发期间,也曾到师父处闭关一年,除得到了师父实战指导外,还蒙师父生活资助,否则,此软件也不可能有今天之完善。冥冥之中,似有天意,每当我想懈怠,想要放弃之时,千里之外就会传来师父他老人家的鞭策之音。当时我师父说,这个软件名字不吉,始皇者,死亡也,是很难推出去的。
2024-08-29 14:12:25
686
1
原创 我的一个典型行业解决方案
看来,是我低估用户了,我说,有个规则,你要注意,就是:日期.姓名.性别.年龄,这4个必须要有,并且要用","分隔,如果没有也要有逗号,逗号必须是半角的,不能用全角。我于是网上一通找,下载回来,把管理员密码搞定了,给她加了一个用户,打包后发给她,让她在家里的电脑上解压后就能用。我说这样吧,你根本不需要花钱买这么一个复杂的软件,你用excel就好,我给你设计一个表格,哪里都能带走,好用又免费。过了几天,她又发给我一个文件,说:麻烦你了,这样排版好看一点,以前的列表长了,手机里不好看得,打印方式还是蛮好。
2024-08-28 16:59:30
827
原创 十三、720度全景照片制作
使用无人机制作室外全景图,能够让我们更加深入地了解和探索大自然的奥秘。无人机可以飞行到我们无法到达的高度和角度,让我们看到更加细致、全面的景象。它可以让我们更加直观、真实地感受到大自然的美丽和壮观,让我们领略到从地面上无法感受到的景象和美妙。能够让我们更加方便地记录和分享我们的旅程和探险。它可以将我们所见所闻所感完美地记录下来,让我们永久保存、随时回顾。同时,我们可以将这些美丽的景象和照片分享给更多的人,让更多的人感受到大自然的美丽和神奇。最重要的是,能够让我们更加深刻地认识到大自然的珍贵和脆弱。
2024-08-23 14:59:48
131
原创 9、双足机器人WBC构建
随着对机器人学研究兴趣的不断增长,机器人已经越来越熟练地执行许多不同的、非同小可的任务,例如跑步、跳跃、爬楼梯和操纵物体。然而,在大多数情况下,这些任务都是单独完成的,这就从根本上限制了机器人在现实世界中的应用。虽然人类偶尔会在单项任务上胜过机器人,但人类在调整和组合行为以解决多项不同任务方面的能力却远胜于机器人。为了解决这些制约因素,提出全身控制(Whole Body Control,简称WBC)。
2024-08-12 18:06:31
734
原创 二四、3d人脸构建
http://www.cbsr.ia.ac.cn/users/xiangyuzhu/projects/3DDFA/Code/3DDFA.zip 可能失效。#安装指南: https://blog.youkuaiyun.com/qq_30011277/article/details/102701109。4、安装opencv https://github.com/anhttran/3dmm_cnn?# caffe帮助:http://caffe.berkeleyvision.org/install_yum.html。
2024-07-10 17:57:02
226
原创 8、开发与大模型对话的独立语音设备
系统中,从外部输入电源中获取电源,经过稳压处理,给整个模组供电,ESP32-WROVER主要用来控制整个系统,该设备通过声音传感器实时监听,当声音强度超过阈值后,接收来自MAX9814的语音信号采样值,进行数据处理,得到pcm音频的Base64编码字符串,然后通过ESP32-WROVER自带的wifi模块将pcm音频通过http请求发送至服务器,从响应中获取到ai回复后的音频,再通过MAX98357播放ai回复的音频,从而实现与ai实时语音交互。一款低成本,低功耗,小体积的高性价比离线语音识别模块。
2024-07-08 12:06:10
322
原创 二一、搭建自已的语言大模型
因为安装了其它的conda环境,而USER_SITE与USER_BASE都是共享的,环境被污染了,所以启用用户独立的站点文件目录。2) 添加154行 "chatglm3-6b": "THUDM/chatglm3-6b"# 安装指定版本的pytorch,与conda下安装的2.1.1的高版本没有冲突。也可以使用13B,看自已服务器的gpu配置来,13B要求gpu显存12G以上。1) 第21行修改chatglm2-6b --> chatglm3-13b。按照下列方式初始化自己的知识库和简单的复制配置文件。
2024-07-08 11:42:24
250
1
原创 7、双足机器人姿态规划
最后传给控制器,可使用位置、速度、力矩三种中任一种闭环控制电机,从而达到姿态调整的目的;然后通过旋转矩阵转换到目标参考系下,并减去目标线速度tgt.v的影响以及脚末端在目标参考系下的角速度,将速度控制输入转化为相对于目标参考系前进方向的速度。要注意的是,这里的单位是弧度,1弧度约为57.3度。最终12自由度位置赋值为:j1={0,0,-0.5, 1, -0.5,0, 0,0,-0.5, 1, -0.5,0};控制器发出行走的指令:当按下空格键时,停止机器人的运动,将cmdVx、cmdVy都设置为0。
2024-06-28 09:53:25
228
原创 6、双足机器人mpc构建
前述建立了空间状态方程,接下来就可以对未来时刻的输入量进行优化,优化问题会转换成一个代价函数,即二次规划问题。通过设计u,对代价函数进行最优化,找到在预测区间内代价函数的最小值。minJ可以误差加权和、输入加权和、终端误差三者之和,为简化计算,舍弃第三项。机器人只有一条腿与地面接触时,接触腿称为站立腿,此时状态为支撑相;另一条腿称为摆动腿,此时状态为摆动相。包括等式约束和不等式约束。
2024-06-25 15:09:55
403
原创 5、双足机器人mpc动力学模型
建立在F系下,当前状态只关心机器人质心处的速度、角速度、角度变化和位置变化;控制输入只考虑足底的力和力矩;在预测周期中,下一状态输出取决于当前状态、控制输入和重力。由控制输入变量推导机器人质心角度的变化量dθ,静止过程中,其初始值为0。为计算机器人的当前实际状态x,需要建立双足质心动力学模型。
2024-06-25 15:02:00
1068
原创 4、双足机器人mpc基础概念
机器人控制实际上不是连续的,是离散的,这就是控制信号的采样周期dt,一般每1ms对机器人发起一次控制信号。一般来说,dt越小,控制器的响应速度越快,但是由于预测的精度有限,如果控制时域过长,预测的误差会逐渐累积,导致控制器的性能下降。注意:1)在程序处理时,u的维度并不是由机器人的自由度确定的,是由其变量的个数及每个变量的空间维度确定,对于双足,采用力矩和力来控制,则u的维度是“2*2*3=12”。机器人实际运动过程中表现出来的状态x,x和xd是一致的,也包括运动速度ν、角速度ω、角度θ、位置p等。
2024-06-25 14:53:23
843
原创 3、你真的把MPC搞懂了吗
把江湖上流传最广的MPC代码进行了面向对象的封装,修正了一些小bug,去掉了一些令人难以理解的边角料变量和小算法,完美贴合了第二部分的理论,特别是加入了令人详细得发指的注解,希望能一码绝后码,成为全网最易理解的源码实现,拿走不谢,不解可询。
2024-04-25 11:56:40
4421
5
原创 2、选择什么样的机器人本体
如果说世界是物质的,那么应该先制造出机器人的本体,再让她产生灵魂。如果是精神的呢,世界是无中生有的呢,那就先在仿真中研究算法吧。而我比较崇尚初中哲学的一句话,世界是物质的,物质是运动的,运动是有规律的,规律是可以认识的。所以我先选择了本体。
2024-04-25 08:57:40
472
原创 二十、农作物病虫害识别模型
可以从https://www.kaggle.com/datasets中下载,Kaggle是一个数据建模和数据分析竞赛平台。企业和研究者可在其上发布数据,统计学者和数据挖掘专家可在其上进行竞赛以产生最好的模型。15 Classes,19189 Train images,1450 Test images,历时15轮,训练时间3个小时左右;# NVida RTX3060 6GB专用内存,batch_size=72内存溢出。# 测试代码,是否支持GPU,如果有GPU,自动会使用GPU优先训练,不用改代码。
2023-08-30 19:41:54
909
原创 十八、深度学习模型30年演化史
深度学习模型层出不穷,如果不理清其源头和出处,则会陷入杂乱的地步。网上各种介绍文章都是抄来抄去,越看越无头绪。我花了几天时间,把常见的几十种模型按其前后发展脉络,历史渊源分类整理了一遍,对于深度学习来说,掌握这些模型的出处和特户口卡,之所以出现的原因,是至关重要的。
2023-08-23 19:03:47
1230
原创 十七、地物识别
描述了使用2D卷积神经网络图像识别的全过程。下载和安装标注工具,对图像进行标注,生成标注后的图像。然后对数据进行增强,划分训练集和测试集。最后通过神经网络建立分类模型,对现有图片进行分类应用。
2023-08-16 14:42:27
425
原创 十六、遥感影像识别
对于高光谱ENVI格式,其原始数据文件(.img)中的数据可以看作是一个三维数组,其中第一维表示波段数,第二维表示图像的行数,第三维表示图像的列数。ENVI格式的原始数据文件可以存储多维数据,包括三维数组、二维数组、一维数组甚至标量等。由于像素太多,这里只取了前30个波段的数据,PCA降维到了5通道,只训练了10轮,否则内存将超过100G,代码和模型训练详下述。外部数据源:如果存在与高光谱影像相关的外部数据源,例如地理信息系统(GIS)数据、遥感图像或其他现有的数据集,可以从这些外部数据源中提取标签信息。
2023-08-11 19:06:59
671
原创 十一、结合数字孪生与时间技术进行多维分析设计与实施
大数据可视化中心以主题为分析对象,选择业务分类下的某个主题,可以在数据面板中展示其二维图表,在地图中标记其空间分布,并叠加其相应的二维或三维图层。
2023-08-10 10:14:36
348
原创 十二、结合数字孪生与时空技术进行大数据多维分析
同时,通过交互式操作,观察者还可以改变模型的视角、缩放、漫游等,与数据进行互动,更深入地探索和分析数据。2.2、传统的二维图表,其维度层级固定,不能进行钻取或聚合:数据表格中,每一行记录的指标值均已经按各个维度进行了分组统计,对于某个维度有多个层级的情况,无法向下钻取,或向上聚合,极大的降低了数据发挥的作用。2.1、传统的二维图表,其维度和指标固定不可改变:在数据面板进行分析时,如果想增加或去掉几个维度,或者临时增加几个指标,由于代码已经固化,传统的二维图表是做不到的,需要修改代码,重新发布。
2023-08-10 09:59:26
386
原创 十五、遥感影像的获取与简单操作
无人机采集的高光谱的原始数据、加工过程中的数据和最后的成果数据可以是以下不同格式的: 原始数据:通常以常见的图像格式如JPEG、PNG或TIFF进行存储。每个图像文件代表一个特定波长的光谱数据。 成果数据:可以是数值数据表格的形式如CSV、Excel,或以栅格数据如GeoTIFF、ENVI等,或矢量形式如Shapefile、GeoJSON等。
2023-08-10 09:48:07
954
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人