- 博客(3534)
- 资源 (147)
- 收藏
- 关注
原创 【dify】gemini bananpro 的生图输出映射为python代码
根据你提供的输入数据和需求,你的主要目标是将 Dify 节点中的参数名(arg1arg2)映射为更有意义的变量名(textfiles),并确保代码能正确解析arg2中包含的文件信息。
2025-12-02 10:43:49
3
原创 【CosyVoice2】4「不走 Triton Server,纯 Python gRPC + JIT + vLLM」结果分析
文章摘要: 本文记录了CosyVoice语音合成项目的优化实践,成功结合JIT(TorchScript)和vLLM实现加速方案。测试数据显示音频生成耗时0.75-2.45秒,RTF(实时因子)在0.122-0.341之间。项目采用ONNXRuntime + CUDA/TensorRT EP处理声学模型,vLLM + torch.compile + CUDA Graph处理LLM部分,绕过了Triton Server直接使用Python gRPC方案。关键优化包括Flash Attention后端、编译图缓存
2025-11-25 12:27:46
71
原创 【cosyvoice2 】3:vLLM加速+旧版官方+旧模型成功运行
本文介绍了在Ubuntu系统中通过PyCharm SSH远程部署vLLM加速环境的过程。首先检查了Python 3.10.16、PyTorch 2.5.1+cu124、vLLM 0.7.3和ONNX Runtime 1.19.0等关键组件的版本兼容性,确认环境配置正确。文章提供了环境备份和恢复的方法,并详细说明了如何从零开始搭建满足要求的开发环境,包括Python环境创建、PyTorch安装、vLLM和ONNX Runtime的版本控制。最后给出了验证环境配置的脚本和固定环境配置的建议。对于vLLM代码较老
2025-11-25 11:21:11
66
原创 【CosyVoice2】2 :triton_trtllm 基准测试结果分析
CosyVoice 的Triton/TensorRT 版本确实具备了驱动实时数字人的能力(200ms 级延迟),处于行业领先水平。但它对算力资源极其敏感,且工程部署难度较大(需要编译 TensorRT 引擎)。落地建议:使用目录下的方案进行部署。开启以获得最低延迟(约 190ms)。在 LLM 和 TTS 之间增加智能断句算法,平衡“句子完整度”和“响应速度”。
2025-11-25 10:07:12
43
原创 【cosyvoice2 】1:pycharm ssh远程ubuntu部署vLLM加速版本
本文介绍了在PyCharm中配置SSH远程开发的方法。主要内容包括:1) 查看SSH服务监听端口的三种方法(配置文件查询、监听端口检查、本地SSH测试);2) 配置PyCharm远程SSH开发的关键步骤:首先生成SSH密钥并配置免密登录,然后在PyCharm中选择Key pair验证方式指定私钥文件;3) 在远程解释器、部署配置和终端中复用SSH配置的具体操作流程。文章提供了详细的命令行操作和图形界面配置说明,适用于Windows和Linux/macOS系统,帮助开发者实现PyCharm与远程服务器的无缝连
2025-11-23 22:28:22
129
原创 【agent】AI 数字人构建15:GPT5的TTS 选型分析
本文针对数字人TTS选型提出三大关键指标:流式首包低延迟(<250ms)、强可控表达能力、稳定的说话人一致性。根据应用场景推荐:交互型数字人首选CosyVoice2(首包150ms)和XTTS-v2(多语言克隆);影视配音推荐IndexTTS2(情绪表现强)。建议采用多引擎分层架构,实时对话用CosyVoice2,高表现需求用IndexTTS2重渲,并配合文本切片、角色缓存、推理加速等工程优化方案,实现低延迟交互与高质量输出的平衡。
2025-11-23 21:13:47
195
原创 【chatai】第一个vue项目编译运行
文章摘要: 该项目是一个基于Vue 3的语音聊天应用前端,需要配合FunASR后端服务使用。关键要点包括: 开发环境配置:必须使用Volar插件(现名Vue Official)并禁用Vetur插件以避免冲突 运行方式: 开发模式:npm run dev(热重载) 生产部署:npm run build(生成dist目录) 核心功能流程: 音频采集:16kHz单声道PCM格式 数据传输:通过WebSocket发送base64编码音频到ws://localhost:8080/chat 消息格式:支持chat.vo
2025-11-23 20:45:26
83
原创 【TTS】2025.3: SupertonicTTS: Towards Highly Efficient and Streamlined Text-to-Speech System及c++代码
SupertonicTTS:面向实时数字人的高效语音合成方案 SupertonicTTS是一种专为低延迟场景设计的语音合成系统,其核心优势在于极快的推理速度(RTF 0.001-0.015)和简洁的架构。该系统采用语音自动编码器将音频压缩为低维潜在向量,配合Flow Matching技术实现2-5步快速推理,无需自回归解码。虽然当前版本仅支持英文且缺乏原生流式接口,但其超快的整句生成速度(1秒语音仅需10ms)使其仍可通过分块处理实现伪流式效果。对于3D数字人应用,该系统能显著降低TTS延迟,简化部署流程,
2025-11-23 00:50:01
109
原创 【copilot】pycharm:Github Copilot 一直初始化initializing freezes in WSL2
如果以上都不行,我们需要看看到底卡在哪一步。在 PyCharm 底部,找到的图标(或者在 View -> Tool Windows -> GitHub Copilot)。切换到Log标签页。Help->(这会打开 Windows 的文件夹,你需要找 Remote 相关的日志,或者直接在 IDE 里点 “Show Log in Editor”)。搜索[copilot]关键字。如果是ETIMEDOUT-> 网络/代理问题。如果是EACCES-> 文件权限问题(尝试。
2025-11-21 10:39:14
143
原创 【agent】AI 数字人构建14:FunASR 2-pass实时版本python中转和延迟分析
中转脚本(Middleware)是位于FunASR 服务端和3D 引擎 (UE5/Unity)之间的桥梁。它的工作流如下:音频采集:中转脚本调用 PyAudio 读取麦克风(或者接收 UE5 传来的音频流)。ASR 识别:中转脚本调用,把音频发给 FunASR Server。逻辑分发 (最关键的一步)当收到(流式结果):通过 UDP/TCP 告诉 UE5 播放“倾听/点头”动画。当收到。
2025-11-20 17:04:20
106
原创 【agent】AI 数字人构建13:FunASR 2-pass实时版本测试及系统分析
本文介绍了FunASR 2-pass语音识别服务的本地实时测试情况。在完成服务端改造后,使用修改后的C++服务端和原生客户端进行麦克风实时ASR测试。测试结果显示,系统能够准确识别并返回实时语音内容(如"你好"、"你是谁"等),同时提供分段时间戳信息。客户端日志详细记录了2pass模式下在线和离线识别结果,展示了实时语音识别的完整流程和性能表现。测试证实了改造后的FunASR服务在实时语音识别场景下的可用性。
2025-11-20 16:28:24
73
原创 【win11】funasr 7:ASR离线ONNX模型及VAD模型onnx选择及模型全部C++正确加载
您的 C++ 代码指向了 speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-online 这个目录,但该目录下缺少量化版的 ONNX 模型 (model_quant.onnx)。这个脚本的核心功能是确保您指定的模型(通过 ModelScope ID 或本地路径)被转换为 C++ Runtime 所需的特定格式(ONNX、TorchScript 或 BladeDisc)。model_quant.onnx (如果您想使用量化模型)
2025-11-20 15:48:42
65
原创 【win11】funasr 8:离线大模型的onnx导出和量化
PyTorch模型转ONNX脚本执行指南 本文提供了在Windows PowerShell环境下将PyTorch模型导出为ONNX格式的详细步骤。主要操作包括:通过Python脚本调用FunASR工具包,指定模型路径和导出目录,并启用量化选项。针对可能出现的"ModuleNotFoundError"错误,给出了解决方案:设置PYTHONPATH变量指向FunASR源码父目录。完整命令行示例包含模型路径处理、环境变量设置和脚本调用方法,适用于FunASR框架下的语音识别模型转换场景。执行成
2025-11-20 01:01:50
62
原创 【agent】AI 数字人构建12:FunASR 2-pass服务分析及实时版本改造
摘要:分析FunASR 2-pass服务的关键配置差异,重点关注模型目录、语言模型和参数设置。1) 在线/离线模型配置需区分:model-dir应使用离线高精度模型,online-model-dir使用流式模型;2) lm_dir语言模型实际使用相同的FST格式n-gram模型;3) 其他参数包括端口号(默认10095)、热词路径和线程数(自动计算)需要注意一致性。建议启动时明确区分在线/离线模型目录,保持其他参数与脚本默认值或自定义需求一致,以确保2-pass服务的正确运行。
2025-11-20 00:55:11
51
原创 【win11】funasr 6:本地安装funasr调试包
FunASR源码调试中可编辑安装的关键作用 可编辑安装(pip install -e .)在FunASR调试过程中具有三个核心价值: 路径注册:解决ModuleNotFoundError问题,通过创建软链接使Python能自动识别源码路径 实时调试:-e参数启用可编辑模式,修改源码后无需重复安装,改动即时生效 依赖管理:自动解析setup.py安装所有必要依赖包 安装过程会自动下载scipy、librosa、sentencepiece等关键依赖。这种安装方式实质上是告知Python系统:将当前目录作为fun
2025-11-20 00:40:11
81
原创 【win11】funasr 5:删除conda环境并改为F盘重建
删除FunASR环境摘要 由于C盘空间有限且路径过长,我删除了之前建立的FunASR环境(funasr_py39)。该环境包含Python 3.9、PyTorch 2.5.1、CUDA 12.9等相关组件,共涉及60多个包,包括深度学习框架、数学库和GPU支持包等。通过conda命令移除整个环境,以释放C盘空间。
2025-11-20 00:35:04
38
原创 【HTTP 】 协议格式错误:but found invalid character 0x7b at index 0 of header
你当前的代码中,Content-Type: application/json 紧接着就是 {。服务器解析器没有读到空行,所以它认为 { 也是一个 HTTP Header 的名字,但 { (ASCII 0x7b) 是非法字符,所以报错。原因分析: HTTP 协议(以及 PyCharm 的 .http 文件格式)强制要求在 请求头(Headers) 和 请求体(Body) 之间必须有一个空行。这是一个非常经典的 HTTP 协议格式错误。
2025-11-18 15:06:29
59
原创 【agent】AI 数字人构建11:FunASR 2:c++工程分析及模型下载
FunASR 2是一个多功能语音处理工具套件,支持GPU/CPU部署,提供离线转写、实时听写、语音唤醒、情感识别等功能。它采用2pass架构实现边听边写的高精度识别,并支持多语言处理和语音理解任务。工程分析显示该项目基于Python构建,通过setup.py管理依赖,同时提供C++版本的WebSocket服务/客户端,已在VS2022成功编译。部署方式包括Docker和本地运行,需要配置ONNX Runtime等依赖库。最新版本还新增了语音唤醒模型和语音理解模型SenseVoice。
2025-11-11 22:28:25
286
1
原创 【win11】funasr 4:配置python依赖项并下载模型
本文记录了FunASR实时语音听写模型安装过程中遇到的问题及解决方案。首先指出运行需要torch环境,但在安装过程中出现报错。通过尝试python setup.py install和pip install torch均未成功,随后直接提取setup.py中的核心依赖项,整理出标准安装命令(包含scipy、librosa、PyYAML等基础包)和全功能安装命令(额外包含训练与LLM相关组件)。建议优先安装PyTorch后执行依赖安装命令。最后作者提供了实际使用的安装指令组合,为类似环境下的FunASR安装提供
2025-10-31 22:22:30
359
原创 【AIGC】多阶段镜头风格模板:现实世界-幻想世界-人文象征
摘要:AIGC混合现实幻想视觉风格解析 本文系统分析了一种典型的"AIGC混合现实幻想风格",该风格融合写实质感、梦幻光影与AI生成特征,呈现出"AI叙事视觉三段式"结构:左图为写实CG电影风,展现哲思氛围;中图为梦幻奇幻插画风,充满神秘光效;右图为新古典主义油画风,体现人文情感。文章提供了详细的视觉风格拆解、情感叙事分析,并给出适用于Midjourney等平台的提示词模板(包括英文prompt和JSON结构化格式),以及角色一致性控制、色调过渡等实践技巧,可作为AI
2025-10-29 22:22:11
176
原创 【AIGC】2025:MV-Crafter: An Intelligent System for Music-guided Video Generation
MV-Crafter是一款智能音乐视频生成系统,通过三大核心模块简化创作流程:1)剧本生成模块利用LLM分析音乐语义,生成连贯叙事的场景提示;2)视频生成模块采用扩散模型将文本提示转化为高质量视频片段;3)动态同步模块创新性地结合节拍匹配算法与视觉包络变形技术,实现任意长度音视频的精确对齐。系统突破传统方法的局限性,在叙事连贯性、视觉质量及节奏同步三个维度显著提升,用户仅需提供音乐和主题关键词即可生成专业级MV。实验验证了该系统在实现音乐语义与视觉表达深度融合方面的有效性。
2025-10-28 21:12:23
81
原创 【win11】funasr 2:安装了两套miniconda环境咋办
摘要: 本文介绍如何彻底移除D盘的Miniconda3,仅保留C盘版本。步骤包括:1)通过控制面板或手动删除D盘Miniconda文件夹;2)清理环境变量中D盘相关路径;3)重新初始化PowerShell的Conda配置;4)验证仅剩C盘版本,并可选清理残留配置。操作需注意区分路径,避免误删C盘版本。最终确保系统仅识别C:\Users\zhangbin\miniconda3。全文配图辅助说明关键操作界面。(149字)
2025-10-28 20:35:29
119
原创 【win11】funasr 1:配置conda环境
本文记录了在Windows系统下管理Conda环境的过程。用户本机安装了两个Conda环境(C盘和D盘),决定保留C盘环境并删除D盘环境。通过conda info和conda env list命令确认了当前激活的是C盘基础环境。在创建新环境funasr_py39时遇到网络连接问题,通过设置HTTP/HTTPS代理127.0.0.1:7890后成功解决了下载问题。最终使用conda create命令创建了基于Python 3.9的新环境,并详细列出了将要安装的依赖包及其版本信息。整个过程展示了Conda环境管
2025-10-28 20:32:20
64
原创 【AIGC 】AIGC 任务管理前后端工程结构分析
AIGC 任务管理前后端项目分析 前端部分 技术栈:基于 Vite + TypeScript + UnoCSS 的现代前端工程,使用 Vue 3.4 + Element Plus UI 框架 主要依赖:Pinia 状态管理、Vue Router、Axios、ECharts 等 开发方式: 推荐使用 VS Code 或 WebStorm 打开 运行命令:pnpm install + pnpm dev 构建命令:pnpm build 生成静态资源到 /dist 目录 后端部分 技术栈:Go(Golang)后端服
2025-10-27 01:00:00
45
原创 【win11】funasr 3:Windows 安装Miniconda3.13解决CondaHTTPError: HTTP 000 CONNECTION FAILED for url
本文档提供了Windows系统下安装Conda环境的完整指南,包括Anaconda和Miniconda的选择建议、详细安装步骤及常见问题解决方案。主要内容: 安装前选择:Anaconda适合初学者(含完整科学计算包),Miniconda更适合开发者(轻量级) 安装过程:从下载到配置PATH环境变量,提供图文指引 常见问题处理: PowerShell无法识别conda命令的4种解决方法 CondaHTTPError等网络连接问题的排查修复方案 包含配置国内镜像源加速下载的完整命令 环境管理:演示如何创建Pyt
2025-10-24 10:41:41
105
原创 【timecode】两种不同的时间码格式:“`00:00:00`” 和 “`00:00:00:00`”
本文介绍了两种时间码格式的区别:"00:00:00"(时:分:秒)用于普通计时和音频处理,而"00:00:00:00"(时:分:秒:帧)是影视制作中的SMPTE时间码格式,包含帧数信息。关键差异在于精度和应用场景:前者精确到秒,适用于音频/字幕;后者精确到帧,用于视频编辑。文章还提供了代码处理建议,可通过判断分隔符数量来兼容不同格式的时间转换。
2025-10-24 10:11:59
170
原创 【agent】AI 数字人构建10:FunASR实时语音听写模型选择
FunASR是一个集成了实时与非实时语音识别功能的开源框架,支持中文语音处理。其核心采用两阶段设计:实时部分(Online)通过Paraformer-online模型快速输出识别结果,非实时部分(Offline)在语音结束后进行二次优化,结合CT-Transformer添加标点并提升准确率。部署时需通过Docker镜像或手动配置Python环境(建议3.7-3.9),项目提供setup.py文件管理依赖安装。实时服务可通过funasr-wss-server-2pass启动,需加载VAD、在线/离线ASR及标
2025-10-24 09:59:27
110
原创 【ffmpeg】win11 python 使用ffmpeg 切割音频
【代码】【ffmpeg】win11 python 使用ffmpeg 切割音频。
2025-10-22 21:29:55
105
原创 【agent】AI 数字人构建9:TaoAvatar思路分析2:语音与姿态共同作用于数字人的表情和身体驱动层
逼真的 3D 全身对话虚拟人在增强现实中具有巨大潜力,其应用范围从电子商务直播到全息通信。尽管 3D 高斯 splatting (3DGS) 技术在创建逼真虚拟人方面取得了进展,但现有方法在全身对话任务中难以实现面部表情和身体运动的精细控制。此外,它们通常缺乏足够的细节,且无法在移动设备上实时运行。我们提出了 TaoAvatar,一个高保真度、轻量级的基于 3DGS 技术的全身对话虚拟人,由多种信号驱动。我们的方法首先创建一个个性化的着衣人体参数化模板,将高斯绑定起来以表示外观。
2025-10-19 01:00:00
59
原创 【agent】AI 数字人构建6:Open-LLM-VTuber 部署ollma和qwen模型
摘要:本文介绍了在Ollama中运行阿里通义千问(Qwen)系列大语言模型的配置建议。针对6GB显存的RTX 3060笔记本显卡,推荐使用Qwen2-7B模型的4bit量化版本(qwen2.5:7b-instruct-q4_K_M),相比Qwen1.5-8B版本,它在性能、显存占用和推理速度方面更具优势。文章详细对比了不同模型版本的区别,提供了具体的运行命令,并建议控制上下文长度以避免显存溢出。同时指出默认安装路径在C盘,但可通过修改环境变量改变模型存储位置。
2025-10-17 01:00:00
100
原创 【agent】AI 数字人构建5:Open-LLM-VTuber 后端大模型
本文介绍了Open-LLM-VTuber项目的配置方法。配置文件(conf.yaml)使用ollama_llm作为大语言模型(LLM)提供商,默认模型为qwen2.5:latest。用户可通过修改agent_config下的llm_provider值切换不同模型提供商(如openai_llm、claude_llm等),并需在llm_configs中配置相应参数。文档还指出,虽然系统可能显示"list index out of range"错误,但仍可正常运行。项目支持多种兼容模型,用户可
2025-10-16 01:00:00
156
原创 指定host后其他页面打开出错
【问题排查:指定host后页面异常】 用户遇到指定host后主站可访问但数据无法加载的问题,经对比发现同事使用公网IP而自己走了内网。通过咨询Gemini发现是简单的子域名问题,F12调试可查看子域名情况。GPT5提供了详细的网络分析方案(分三层:HTTP/TLS验证、路由抓包、浏览器对比),包括PowerShell和Linux命令,帮助定位Host/SNI路由差异、资源加载错误等问题。常见修复方向包括检查服务器对不同IP/Host的响应差异、排查静态资源路径等。最终发现是子域名配置问题导致资源加载失败。
2025-10-15 09:38:26
392
原创 【agent】AI 数字人构建10:FunASR 1:语音识别C++服务/客户端构建
FunASR已转由ModelScope维护,提供了C++客户端的构建教程。构建过程需要依赖OpenSSL、FFmpeg和ONNX Runtime库,通过CMake进行配置。官方指令和本地构建命令均需指定这些依赖库的路径。构建过程中出现了CMake语法警告和OpenSSL未找到的问题,导致构建失败。日志显示OpenSSL相关路径未正确配置,需检查依赖库路径设置。该问题可能与环境变量或库版本兼容性有关。
2025-10-14 22:16:55
399
原创 用你本地已有的私钥(private key)去 SSH 登录远程 Ubuntu 服务器
如果能直接登录而不再提示输入密码,说明设置成功 ✅。服务器就能用公钥来验证你的登录请求。第一次运行会让你输入服务器密码。命令执行后,它会自动把你本地的。复制整行内容(不要有换行)。如果你使用多个密钥,可以在。,绝不能上传到服务器。,而不是直接传私钥。
2025-10-13 21:50:31
491
原创 【agent】AI 数字人构建2:MDM与MNN及TaoAvatar思路分析1
阿里MNN团队开发的TaoAvatar是一款基于端侧AI的实时3D数字人系统,结合了神经渲染、高斯点云渲染和参数驱动技术。该系统通过MNN引擎整合了LLM、ASR、TTS等模块,能在手机端实现语音驱动、面部表情和肢体动作的实时渲染。其核心技术包括:1)基于高斯点云的动态形变;2)动作参数驱动机制;3)创新的"Dirty"优化算法,仅在参数变化时重新计算形变,显著降低算力需求。相比传统云端方案,TaoAvatar实现了在移动端的轻量化部署,支持20fps的实时交互。相关资源已开源,包括模型
2025-10-13 12:20:16
394
原创 【agent】AI 数字人构建8:本地edge-tts实现 tts
本文介绍了如何通过本地调用edge-tts实现文本转语音并保存为MP3文件。作者在尝试使用sherpa-onnx时发现其断句和发音效果不如微软免费的edge-tts服务。文中详细解释了命名冲突问题(本地edge_tts.py与第三方库重名导致的导入错误),并提供了完整的Python解决方案,包括创建一个独立的文本转语音转换器类,支持指定语音模型和输出路径。示例代码展示了如何使用edge-tts生成音频流并保存为MP3/WAV文件,同时处理了常见的导入问题和音频格式转换。
2025-10-11 23:49:48
179
Creating Android Applications: Develop and Design 源码
2014-04-16
openssl-OpenSSL_1_1_1-stable.7z
2020-07-04
nexus5-cm11 提取的boot.img
2015-03-30
moto MB865 ROOT 工具包
2014-03-28
DX910-SW-99002-r3p2-01rel1.tgz
2015-09-01
usb转串口适用于win8/8.1/10
2015-08-02
nexusd5 android5.0 型号LRX210 ROOT所需文件打包
2014-11-23
Pastry: Scalable, Decentralized Object Location, and Routing for Large-Scale P2P
2025-06-17
srs-ingest-helper
2025-06-17
Whole Tomato Visual Assist X 2023.1 v10.9.2476.0 (19 Jan 2023)
2023-05-28
vs2022 visual assist x10.9.2451.0 by piaopyun/oledlg
2022-09-23
VS2022 VISUAL ASSIST X 小番茄 v10.9.2435.0 VA_X_Setup2440_0.exe
2022-02-25
[FLV 解析工具]FLV_UI_Parse.exe
2021-10-08
【右键菜单直接修改工具】shmnviewRightMenuModiy.zip
2021-10-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅