- 博客(298)
- 收藏
- 关注
原创 深度学习系列87:非常简易的知识库LEANN
LEANN是一款嵌入式轻量级向量数据库,专为本地RAG应用设计。它支持多种嵌入模型和LLM后端,包括sentence-transformers、OpenAI、Ollama等,能高效索引和搜索数百万文档,相比传统向量数据库节省97%存储空间。基础功能包括索引构建、语义搜索和基于文档的对话,支持代码感知分块和交互式查询。LEANN无需GPU集群,可在个人电脑上运行,提供类似SQLite的轻量级体验。
2025-12-29 10:39:26
393
原创 深度学习系列85:sqlite-ai系列
本文介绍了三个SQLite扩展插件:sqlite-ai、sqlite-vec和sqlite-rag。sqlite-ai支持通过SQL操作大语言模型,提供模型加载、上下文创建和对话响应功能。sqlite-vec实现向量检索功能,支持文本嵌入存储和相似度查询。两者都可通过pip安装,并提供了完整的Python使用示例,包括模型加载、文本嵌入处理和相似度搜索等操作流程。这些插件将AI能力直接集成到SQLite数据库中,为开发者提供了便捷的AI功能调用方式。
2025-12-24 18:23:23
271
原创 深度学习系列84:使用kokoros生成tts语音
Kokoro TTS 以其轻量级设计和高效性能脱颖而出。作为一个仅有82M参数的文本转语音(TTS)模型,Kokoro 在 TTS Spaces Arena 中击败了许多参数规模更大的竞争对手,成为语音合成领域的一颗新星。
2025-12-24 13:33:22
234
原创 深度学习系列83:使用outetts
本文介绍了基于LLaMa架构的语音合成模型及其中文使用方法。该模型采用WavTokenizer音频标记化技术,v2/v3版本分别使用CTC对齐和Whisper实现文本-音频精确映射,支持20多种语言。针对中文使用,需修改whisper-timestamped库配置并调整音频处理代码。使用流程包括:创建接口、生成/加载说话人配置文件、执行语音合成并保存输出。示例代码演示了从文本到语音的完整生成过程,支持自定义说话人音色。该方案为中文语音合成提供了高效解决方案。
2025-12-24 12:58:04
167
原创 运筹系列94:CVXPY
CVXPY是一个用于凸优化和混合整数规划的Python包。它支持定义变量(可设置为整数或0-1变量)、构建约束条件和目标函数,并调用多种求解器求解问题。示例展示了如何用CVXPY建立线性约束的二次优化模型和产能分配模型。CVXPY支持多种求解器(如HIGHS、SCS等),可根据问题类型自动选择最适合的求解器,处理包括线性规划、二次规划、锥优化等问题。特殊参数可用于处理几何规划、拟凸规划等特殊问题类型。
2025-09-25 09:16:35
860
原创 【深度学习系列82】joyagent上手体验
JoyAgent-JDGenie是一款支持自定义扩展的多智能体框架。本文介绍了手动安装部署的步骤:1)前端UI通过start.sh启动;2)工具服务需配置.env文件并修改搜索接口代码;3)后端服务通过修改application.yml并执行build/start脚本;4)MCP服务需配置服务器地址并启动客户端。用户可通过实现BaseTool接口创建自定义智能体,如天气查询Agent,并注册到框架中使用。该框架支持灵活扩展,二次开发者可根据需求添加新功能模块。
2025-07-27 09:48:47
1754
原创 深度学习系列81:MCP快速上手
MCP是一种开放协议,用于构建AI智能代理和工作流,采用客户端-服务器架构。本文演示了MCP的基本使用方法:1)服务端通过@mcp.tool装饰器注册服务(如query_hour时间查询工具),并运行FastMCP服务器;2)客户端通过ClientSession连接服务器,利用LLM处理用户查询并调用相应工具。示例展示了完整的交互流程,包括工具发现、参数解析和结果处理,最终返回给用户。MCP协议实现了AI模型与本地/远程资源的安全交互,为构建复杂应用提供了标准化框架。
2025-06-19 13:40:03
454
原创 python系列31:MLforecast入门
参考这里:https://nixtlaverse.nixtla.io/mlforecast/docs/getting-started/end_to_end_walkthrough.html。
2025-06-13 10:22:10
377
原创 深度学习系列76:流式tts的一个简单实现
使用queue,producer不断向queue中添加audio,然后consumer不断从queue中消费audio。下面的样例使用melo来生成语音,需要先下载melo.tts。
2025-01-23 15:18:41
932
2
原创 electron基本教程
入口main.js,在app中启动一个window加载preload.js和html文件,然后html中添加render.js用于渲染。
2024-11-27 11:29:55
1231
原创 slam系列4:nerf和3dgs
常用的3维表示法:NeRF属于是density的模型,模型的参数如下:传统的 3D 模型表示方法,如 离散的Mesh 和点云,以及连续的 Nerf,通常面临着一个主要问题:随机采样过程中产生的噪声,这直接影响了渲染质量。3DGS 是在离散和连续间的一个平衡:在高斯球内部是连续的、可微的;在整个空间中,每个高斯球又是离散的。
2024-10-17 10:31:54
2340
原创 slam系列1:open3d入门笔记
这里有很多测试用的pcd文件:https://github.com/PointCloudLibrary/data/blob/master/tutorials/2.2 滤波统计滤波半径滤波2.3 聚类和分割2.4 曲面重建目前实现了如下几种:我们对比一下效果
2024-10-10 15:26:05
449
原创 深度学习系列77:tts技术原理
tts为text-to-speech,asr为Automatic Speech Recognition,即speech-to-text。
2024-09-02 16:48:01
3237
1
原创 深度学习系列74:语音中的mel谱
一个人说一句话,其 waveform 可以很不一样,但是 spectrogram 基本上会相似,甚至有人可以通过 spectrogram 来判断说话的内容。语谱图的横坐标是时间,纵坐标是频率,坐标点值为语音数据能量。由于是采用二维平面表达三维信息,所以能量值的大小是通过颜色来表示的,颜色深,表示该点的语音能量越强。DFT(Discrete Fourier Transform)是将连续音频信号转换为离散频域表示的一项重要操作。DFT是一种数学变换,用于将时域信号(如音频波形)转换为频域表示。
2024-09-02 16:26:39
2479
原创 深度学习系列73:使用rapidStructure进行版面分析
项目地址https://github.com/RapidAI/RapidStructure?
2024-08-28 18:26:42
957
原创 深度学习系列71:表格检测和识别
原图为:https://www.95598.cn/omg-static/99107281818076039603801539578309.jpg。
2024-08-26 11:51:09
1539
原创 深度学习系列70:模型部署torchserve
ts文件夹下,从launcher.py进入,执行jar文件。入口为model_server.py的start()函数。
2024-07-25 16:37:54
717
原创 深度学习系列69:模型部署的基础知识
为了让模型最终能够部署到某一环境上,开发者们可以使用任意一种深度学习框架来定义网络结构,并通过训练确定网络中的参数。之后,模型的结构和参数会被转换成一种只描述网络结构的中间表示,一些针对网络结构的优化会在中间表示上进行。最后,用面向硬件的高性能编程框架(如 CUDA,OpenCL)编写,能高效执行深度学习网络中算子的推理引擎会把中间表示转换成特定的文件格式,并在对应硬件平台上高效运行模型。return out。
2024-07-25 12:46:18
1460
原创 运筹系列93:VRP精确算法
MTZ是Miller-Tucker-Zemlin inequalities的缩写。除了定义是否用到边xij外,还需要定义一个ui用来表示此时车辆的当前载货量。注意这里x变量需要定义为有向。MTZ的求解速度不快,10个点3辆车都需要3秒左右时间。
2024-06-24 14:08:22
1433
原创 收音机的原理笔记
人类听觉范围为20 Hz-20 kHz,多数人声的频率范围在340 Hz到3.4KHz之间。收音机的基本架构如下图所示,天线接收电波信号,通过输入调谐选出所需的频带。其经过高频放大后,由检波电路分离出音频信号,再经过音频功率放大器进一步放大,驱动喇叭发出声音。我们不直接传输信号,而是将信号叠加到载波上。载波,是一种运载声音信号的高频波,本身不传递有效信息,但频率很高,可以被天线正常接收到。无线电广播:将原来用电线传输的信号转化为电磁波,通过信号塔发送,听众只需安装天线接收电信号即可。
2024-06-11 08:10:59
3215
原创 python系列29:压测工具locust
然后打开web页面:点击start,会执行脚本代码,调用hello和world接口。ramp-up的设置,一般而言:100以内的并发用户数,ramp-up时间设置为1-2s;100-500左右,rramp-up时间设置为2-3s;500以上,ramp-up时间设置为5-10s。
2024-06-03 10:52:14
1711
原创 运筹系列92:vrp算法包VROOM
详见:https://github.com/VROOM-Project/vroom/blob/master/docs/API.md需要定义如果没有指定经纬度和地图server的话,则需要定义matrices。
2024-05-13 15:01:15
1212
1
原创 深度学习系列67:制作聊天机器人
tresponse = requests . post ( url , headers = headers , json = data , verify = False )if response . status _ code ==200:return response . json ()[" choices “][0][” message “][’ content ‘]else :return “我没有听清”async def read ( text ):tts = edge _ tts .
2024-04-24 16:58:43
1299
1
原创 深度学习系列64:数字人wav2lip详解
总体步骤差不多,但是相比于openHeygen要简化很多第一步,加载视频/图片和音频/tts。同样是用melspectrogram将wav文件拆分成mel_chunks。第二步,调用face_detect模型,给出人脸检测结果(可以改造成从文件中读取),包装成4个数组batch:img_batch(人脸),mel_batch(语音),frame_batch(原图),coords_batch(坐标)第三步,加载模型,进行计算。这个模型目前看下来就是简单的resnet,没有transfomer。
2024-04-23 13:32:01
4952
1
原创 深度学习系列65:数字人openHeygen详解
从inference.py函数进入,主要流程包括:1) 使用cv2获取视频中所有帧的列表,如下:2)定义Croper。核心代码为69行:full_frames_RGB, crop, quad = croper.crop(full_frames_RGB)。其中crop是头肩位置,quad是人脸位置,得到的新的full_frames_RGB为人脸区域的截图。5)进行图像增强,使用的是GPEN-BFR-512模型,图片变高清了:6)接下来加载wav语音文件,并拆成块7)进行lipSync,如下图。
2024-04-21 20:46:54
949
原创 运筹系列90:生产线运输问题的julia求解
我们不妨假设仓库有3种物料需要搬运到生产线,搬运时间都是3min。三种物料假设都需要搬运3件,有2个叉车可以进行搬运,每个叉车每次智能搬运一件。
2024-04-10 08:16:34
341
原创 深度学习系列63:常用的中文tts(更新中)
使用sherpa的参考代码如下,模型下载地址见https://hf-mirror.com/csukuangfj/vits-zh-aishell3。
2024-03-22 09:56:35
2538
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅