- 博客(928)
- 资源 (12)
- 收藏
- 关注
原创 个人分享及推荐
分享这里是我在平时阅读到的好书、好资料,我把他们都放在此处,也算是我自己的一个收藏夹。所有的这些都是我自己阅读完了,认为质量很不错,对成长有帮助的文章,希望他们也能给你带来成长
2020-01-11 20:15:07
447
原创 从CLIP到BGE-M3:多模态嵌入的演进与实践
多模态嵌入技术:打破AI的模态壁垒 多模态嵌入技术通过将文本、图像等不同模态数据映射到同一向量空间,实现了跨模态语义理解。OpenAI的CLIP模型采用双编码器架构和对比学习策略,开创性地实现了图文语义对齐。北京智源研究院的BGE-M3在此基础上进一步发展,通过网格嵌入和多语言支持,提升了复杂场景的处理能力。这些技术突破使AI系统能够理解"一只奔跑的狗"的文字描述与对应图片的语义关联,为跨模态检索、零样本识别等应用奠定了基础。代码示例展示了如何下载和使用Visual BGE模型进行多模态
2025-12-04 19:40:06
519
原创 向量嵌入:RAG系统背后的语义引擎
向量嵌入技术将高维语义信息压缩为低维向量,使相似概念在向量空间中聚集。作为RAG系统的核心,嵌入质量直接影响语义检索效果。从静态词嵌入到动态上下文嵌入,技术不断演进,解决了多义词等难题。现代嵌入模型基于Transformer架构,通过对比学习优化检索性能。选型需考虑MTEB排名、语言支持等维度,并结合业务测试。未来趋势包括多模态融合、知识图谱增强和轻量化部署。嵌入技术已成为NLP领域的关键支柱,其优化对提升RAG系统性能至关重要。
2025-11-29 12:55:56
1543
原创 李宏毅NLP-14-NLP任务
自然语言处理(NLP)任务主要分为文本生成和文本分类两大类。文本生成任务(如机器翻译、文本摘要)通过生成式模型创造新文本;文本分类任务(如情感分析、垃圾邮件识别)则通过分类模型为文本打标签。分类任务分为单类别和多类别两种。序列到序列(Seq2Seq)模型是处理文本转换任务的核心技术,包含编码器、解码器、注意力等机制。多文本输入处理可采用简单拼接或序列间注意力整合策略。NLP任务还可按输入序列数量和输出类型进行二维分类,涵盖情感分类、序列标注、问答等多种应用场景。词性标注等任务则属于序列标注的具体应用。
2025-11-16 20:58:30
1210
原创 RAG系统中的文本分块技术:从基础策略到智能分块的深度解析
文本分块是RAG(检索增强生成)系统的核心环节,直接影响知识检索的精度和效率。本文系统分析了文本分块的核心价值、经典策略和智能进阶技术。固定大小分块和递归字符分块是基础策略,能够适配模型上下文窗口限制;语义分块通过嵌入向量和语义距离实现上下文感知的动态切分;结构化文档分块则利用标题层级保留元数据。此外,Unstructured框架基于文档元素智能分块,LlamaIndex采用面向节点的解析方法。不同分块策略各具特点,需要根据文档类型和应用场景灵活选择,以优化检索性能和生成质量。
2025-11-14 22:45:00
668
原创 音画同步革命:IndexTTS2深度解析——B站开源的情感化+时长可控TTS新标杆
哔哩哔哩IndexTTS2开源项目突破传统TTS技术瓶颈,通过三大创新实现音画精准同步和情感自然表达:1)时间编码机制实现毫秒级时长控制,误差率低于0.07%;2)特征解耦架构支持音色与情感独立调控,情感相似度达0.887;3)三阶段训练范式提升生成稳定性。该系统提供双生成模式(精准控时/自然韵律)、零样本音色克隆(5秒参考音频即可)、跨语言支持等特性,并具备工业化部署能力。开发者可通过简单API或WebUI快速实现情感化语音合成,适用于影视配音、虚拟主播等场景。
2025-11-05 20:15:00
1511
原创 无分词器 TTS 新标杆:VoxCPM 全解析 —— 从原理到实战的高保真语音生成指南
VoxCPM创新性地采用无分词器端到端架构,突破传统TTS模型信息损失瓶颈,实现了高保真语音合成与克隆。该模型融合扩散自回归架构和MiniCPM-4语言模型骨干,支持连续语音信号生成与上下文感知表达。核心优势包括:仅需5秒音频即可完成零样本克隆(相似度达0.93)、实时因子低至0.17的流式合成,以及支持中英文混合、情感语调自适应等复杂场景。测试显示其性能超越同类开源模型,同时保持轻量化(0.5B参数)。开发者可通过简单API快速集成,但需注意克隆功能的法律合规要求。VoxCPM为语音生成领域提供了兼具高自
2025-11-04 22:30:00
1537
原创 Milvus 可视化管理利器:Attu 全面指南
Attu是Milvus向量数据库的官方图形化管理工具,通过可视化界面简化了数据库操作。它支持数据管理、向量操作、检索验证、权限控制和系统监控等核心功能,覆盖Milvus全生命周期管理。提供Docker、桌面应用和Kubernetes三种部署方式,支持快速验证和生产环境使用。Attu与Milvus版本强绑定,2.6.x及以上版本为专有许可证,而2.5.x及以下版本可二次开发。作为降低Milvus使用门槛的关键工具,Attu特别适合混合检索等复杂场景的开发与调试。
2025-11-04 20:00:00
1260
原创 DataFun:智能风控与业务安全
,最终目标是让智能体在风控领域的知识、判断、协作能力,达到 “拥有五年经验的人类风控专家” 水平,实现从 “模型智能” 到 “业务智能” 的落地。从。
2025-10-18 12:27:50
850
原创 Sherpa 语音识别工具链安装指南(Linux CPU 版)
本文详细介绍了在Python 3.10环境下安装Sherpa语音处理工具集的完整流程。主要内容包括:系统环境配置(推荐Ubuntu/CentOS系统)、虚拟环境创建、核心组件(PyTorch 2.5.0、k2、kaldifeat等)的安装方法与版本匹配技巧,以及Sherpa-ONNX轻量推理引擎的部署。文章还提供了安装验证方法和TTS语音合成示例,帮助用户快速测试功能。整个安装过程强调版本兼容性,通过whl文件离线安装确保稳定性,适合需要语音识别和实时音频处理的开发者参考。
2025-10-17 20:25:17
809
原创 RAG系统中的数据加载:从文档解析到Unstructured实战
数据加载是RAG系统的关键第一步,直接影响后续流程质量。本文对比了PyMuPDF4LLM、Unstructured等主流文档加载工具,重点解析Unstructured库的多格式支持与智能内容解析能力。通过代码示例演示了如何加载PDF文档并统计元素类型,比较了不同解析策略的适用场景。最后提供常见问题处理方案,强调数据质量对系统性能的决定性作用。
2025-09-11 09:05:37
852
原创 Git 别名:用简短命令大幅提升开发效率
摘要: Git别名通过简化高频复杂命令(如git st代替git status)显著提升开发效率。核心配置方法包括全局设置(git config --global alias.st status)和项目级设置,支持基础操作、日志优化(如彩色图表输出git lg)及Shell脚本嵌入。最佳实践建议采用2-3字母动词缩写(如cm表示commit),保持命名简洁一致。典型场景如日常提交(git cm "msg")、分支管理(git cb feature),可节省30%-50%操作时间。通过gi
2025-09-03 20:20:53
501
原创 Resemble Enhance:AI语音增强技术的革新之作
Resemble Enhance是由Resemble AI开发的AI语音增强工具,通过去噪和增强两阶段处理提升语音质量。核心功能包括消除背景噪音(街道声、音乐等)和修复模糊/卡顿音频,采用44.1kHz训练数据与自编码器+声码器架构。支持快速安装(pip install)或源码定制,提供Web演示和命令行批量处理(可调去噪强度等参数)。适用于会议录制、语音助手等场景,具备高精度去噪和带宽扩展优势。开发者可参考GitHub仓库进行模型训练或应用部署。
2025-09-02 22:30:00
889
原创 李宏毅NLP-13-Vocoder
本文介绍了声码器(Vocoder)在语音合成中的关键作用及其技术演进。声码器负责将前端模型生成的声学特征(如频谱图)转换为可听波形,其发展经历了从传统Griffin-Lim算法到现代深度学习方法的跃迁。重点解析了WaveNet这一开创性神经声码器:采用因果卷积和膨胀卷积构建自回归模型,通过μ-law压缩解决音频高维难题,逐点生成高保真语音。文章还对比了幅度谱与相位谱的特性差异,并阐述了声码器作为通用波形生成模块的价值——可复用于TTS、语音转换等多场景,通过任务拆分实现语音细节的独立优化。
2025-08-31 18:40:56
1172
原创 李宏毅NLP-12-语音分类
本文介绍了说话人识别与验证的核心技术。说话人识别属于多分类问题,通过语音特征判断说话人身份;说话人验证则是二分类任务,通过比较两段语音的声纹相似度进行身份确认。重点阐述了说话人验证系统的评估指标EER(等错误率)及其在安全与体验场景中的权衡应用。此外还介绍了说话人分离技术及其会议记录等应用场景。最后详细讲解了基于嵌入的说话人验证三阶段框架:开发阶段训练通用特征模型,注册阶段存储说话人嵌入模板,评估阶段进行身份验证。这些技术广泛应用于金融安全、智能助手等领域。
2025-08-23 17:59:30
921
原创 新手入门:用 LangChain+LlamaIndex 构建 RAG,通义千问 API 免费够用
本文介绍了如何利用阿里通义千问API结合LangChain和LlamaIndex框架搭建RAG系统,特别适合零基础开发者。主要内容包括:1)通过Conda创建虚拟环境;2)配置通义千问API密钥;3)使用LangChain实现完整RAG流程,包括文档加载、文本分块、向量索引构建、文档检索和答案生成;4)详细解析了代码实现和参数配置,并提供了运行验证方法。该方案具有成本低(免费API额度)、配置简单(无需复杂运维)的特点,能有效解决新手在RAG实践中遇到的两大难题。
2025-08-19 18:00:00
1322
原创 RAG 入门指南:从概念到最小系统搭建
RAG(检索增强生成)技术通过融合信息检索与文本生成,有效解决大语言模型的知识过时、幻觉输出等问题。其核心流程包括文档索引构建、相关信息检索和生成优化三个阶段,可根据不同场景需求选择初级、高级或模块化RAG方案。相比传统LLM,RAG具有知识实时更新、输出可溯源、成本效益更优等优势,适用于文档查询、专业咨询等多种场景。实践层面,开发者可利用LangChain、FAISS等工具链,通过数据准备、索引构建、检索优化和生成集成四个步骤快速搭建最小可行系统。该技术正成为提升LLM实用性的重要解决方案。
2025-08-18 19:32:08
1220
原创 使用 uv管理 Python 虚拟环境:比conda更快、更轻量的现代方案
uvuv是 Python 开发者的新宠,它以Rust 的性能优势和现代化设计,解决了传统工具的痛点。如果你专注于 Python 生态,追求速度和轻量化,uv是理想选择;而conda仍然是科学计算领域的全能选手。根据项目需求选择合适的工具,才能事半功倍!
2025-08-18 19:11:33
1829
原创 李宏毅NLP-11-语音合成
语音合成技术经历了从早期电子合成到现代神经网络的演进过程。1939年贝尔实验室的VODER首次用电子设备模拟人类语音,开创了语音合成先河。1960年代计算机辅助合成技术出现,随后拼接式合成方法通过拼接预录语音片段实现自然语音输出,但受限于数据依赖性。参数化合成(HMM/DNN)通过统计模型生成语音,提高了灵活性。2017年Deep Voice首次采用模块化神经设计,实现文本到语音的直接映射。
2025-08-17 18:05:59
905
原创 Dify-17: 扩展模型提供方
本文介绍了在Dify平台扩展新模型提供方的完整流程。系统采用模块化架构,包含ModelInstance、ProviderManager等核心组件,支持多种AI模型类型。开发者需创建提供方实现文件,继承相应模型基类并实现必要接口(如大语言模型的invoke方法)。平台提供凭证加密、负载均衡和回调监控功能,支持系统配置和用户自定义配置。集成步骤包括定义凭证模式、实现认证逻辑、测试模型调用等关键功能,并最终注册到提供方工厂。Dify的安全机制确保凭证处理安全,同时支持高可用场景下的负载均衡。通过此扩展机制,开发者
2025-08-13 18:28:32
1196
原创 Dify-16: 开发环境配置
本指南详细介绍了Dify本地开发环境的搭建流程,包括API后端(Python/Flask)和Web前端(Next.js)的配置。系统要求安装Python 3.11+、Node.js v18.18+、Docker等必需软件,并推荐使用VS Code等开发工具。配置步骤涵盖中间件服务(Docker Compose)、API后端(UV依赖管理、数据库迁移)和Web前端(pnpm依赖管理)的设置,提供了完整的开发测试流程说明。环境变量部分详细解释了API和Web的关键配置参数,并提供了通过Docker一键部署完整栈
2025-08-07 21:56:55
1508
原创 Agent X MCP 把想法编译成现实
本文展示了一系列AI技术应用的视觉演示,主要涵盖三个方向:1)多模态GUI智能体,通过图形界面实现人机交互;2)协作型AI系统,展示多个智能体协同工作的场景;3)魔搭社区MCP(Model Collaboration Platform)及其与硬件结合的实践案例。这些演示呈现了AI在界面交互、协同计算和硬件集成方面的前沿探索,体现了人工智能技术向多模态、协作化和硬件落地的演进趋势。
2025-08-02 15:50:53
243
原创 李宏毅NLP-10-语音分离
摘要 本文系统介绍了语音分离技术,重点分析说话人分离任务。语音分离包含语音增强(降噪)和说话人分离(分离重叠语音)两个方向。说话人分离任务需从混合音频中分离出独立说话人信号,研究集中于单麦克风、双说话人场景,并需解决训练与测试说话人不同的泛化问题。文章详细阐述了评估指标(SNR、SI-SDR、PESQ、STOI)及其优缺点,特别是SI-SDR通过信号投影解决了SNR的幅度作弊问题。针对说话人分离的置换问题,介绍了基于掩码的方法,通过生成时频掩码矩阵从混合信号中分离目标语音。该技术可应用于会议记录、语音识别等
2025-08-02 14:01:26
1004
原创 Dify-15: 开发指南
Dify开源项目开发指南摘要:本文详细介绍了Dify开源AI开发平台的贡献指南,包含完整的开发环境配置流程和扩展开发方法。开发环境搭建需同时配置Python/Flask后端(3.11+版本)和Next.js前端(Node.js 18.18+),使用Docker部署中间件服务。系统采用微服务架构,包含API服务层、异步任务处理和向量数据库集成。指南提供了模型提供方扩展、插件开发和UI组件定制的方法,并涵盖国际化支持、测试框架(pytest/Jest)及生产环境部署说明。常见问题排查和开发命令参考帮助开发者快速
2025-07-30 20:15:48
876
原创 Dify-14: 工作流API端点
Dify工作流API文档摘要:本文详细介绍了Dify平台的工作流API接口,支持开发者通过编程方式执行、监控和管理工作流。主要包含执行端点(POST /workflows/run)和控制端点(如停止执行和获取详情),支持流式和阻塞两种响应模式。所有请求需通过API密钥进行身份验证,并支持文件处理(远程URL或本地上传)。文档还提供了错误代码说明和完整请求示例,帮助开发者实现与聊天应用集成及复杂工作流编排。特别强调需安全存储API密钥,避免客户端暴露。
2025-07-28 22:30:00
1570
原创 Dify-13: 文本生成API端点
本文档介绍了Dify平台提供的文本生成API功能,适用于翻译、摘要等非对话式AI应用场景。API支持单次请求处理,无需维护会话上下文。所有请求需通过API密钥进行身份验证,建议采用流式响应模式提升性能体验。 核心端点/completion-messages支持POST请求,接收包含query字段的inputs参数,可附加文件(如图片)。响应提供阻塞(完整返回)和流式(SSE分块)两种模式,包含token用量计费信息。 文档还包含文件上传、停止生成和消息反馈等辅助端点说明,并列出常见错误代码(如参数无效400
2025-07-22 23:00:00
931
原创 Base44:用自然语言 “说” 出你的 Web 应用,AI 零代码开发有多颠覆?
Base44是一款AI驱动的零代码应用开发平台,让用户通过自然语言描述快速生成全功能Web应用。其核心特点包括:1)自然语言交互,用户用日常语言描述即可自动生成前后端代码;2)全栈一体化技术栈,内置数据库、API等企业级服务;3)商业化场景优化,支持短信、地图等实用功能。平台采用成本优化的Claude模型,上线3周即获1万用户,半年内实现盈利,2025年被Wix以8000万美元收购。Base44提供可视化编辑器、版本控制和协作功能,支持数据管理和行级安全设置,适合快速构建MVP或内部工具。其成功证明了AI时
2025-07-15 22:10:11
3179
原创 Dify-11: API参考
Dify API开发指南摘要:本文详细介绍了Dify服务的API集成方式,支持开发者编程调用不同类型AI应用功能。API分为四种应用类型:聊天应用(带会话历史)、文本生成应用(无状态)、工作流应用(多步骤流程)和智能体聊天应用(工具增强)。
2025-07-14 09:13:58
3400
原创 李宏毅NLP-8-语音模型
语言模型与连续语言模型解析 语言模型(LM)通过估计token序列概率来评估文本合理性,在语音识别等任务中发挥重要作用。传统N-gram模型依赖离散词频统计,面临数据稀疏问题,导致未见过词组合概率被错误估计为0。连续语言模型创新性地引入推荐系统的矩阵分解思想,将词和上下文表示为低维向量,通过向量内积预测共现概率。这种方法利用向量相似性的泛化能力,自动为未观察到的词组合分配合理概率,有效解决了N-gram的稀疏性缺陷,实现了类似神经网络的连续表示优势。
2025-07-06 15:50:05
1121
原创 李宏毅NLP-7-计算分数和训练和测试
模型核心特点适用场景缺点LAS依赖注意力,隐式对齐,建模长距离依赖离线高精度识别(如语音转写)不支持在线实时处理CTC独立解码,显式对齐,支持在线实时简单识别(如关键词检测)无法建模 token 依赖RNN - T依赖解码,显式对齐,支持在线,建模依赖实时高精度识别(如语音助手)训练和推理复杂度较高。
2025-07-03 07:26:18
1114
原创 Dify-12: 聊天应用API端点
Dify 聊天 API 文档摘要:该文档详细介绍了 Dify 平台的聊天 API 功能,提供包括消息发送、文件上传、对话管理等完整接口说明。API 采用 Bearer Token 认证,支持流式和阻塞两种响应模式,并允许文件上传实现多模态交互。核心功能包含创建/停止消息、上传文件、管理对话历史等功能,同时提供详细的请求/响应参数说明及示例。强调 API 密钥需安全存储于服务端,防止客户端泄露风险。文档结构清晰,包含端点列表、参数表格和 JSON 示例,为开发者提供全面的集成指南。
2025-06-25 19:41:29
1625
原创 Dify-10:租户管理
用户账户:注册、认证、资料管理工作区(租户):包含独立成员和资源的组织单元成员与角色:工作区内的基于角色访问控制(RBAC)认证流程:支持密码、邮箱验证码、OAuth 等多种认证方式该系统通过提供身份和访问控制,与 RAG 知识系统(参见 RAG 知识系统)、对话系统(参见 对话系统)等组件集成。
2025-06-18 19:15:36
2179
原创 Dify-9:模型提供方系统
Dify 中的模型提供方系统负责管理与各种人工智能模型提供方的集成,处理凭证信息,并为调用模型提供统一的接口。该系统使 Dify 能够通过一个通用的抽象层与多个模型提供方(如 OpenAI、Azure OpenAI、Anthropic 等)协同工作,既支持系统管理的凭证(通过 Dify 云服务),也支持用户自定义提供的凭证。
2025-06-17 19:20:23
1044
原创 Dify-8:对话系统
Dify对话系统管理用户与AI应用间的交互会话,包含对话状态追踪、消息存储及用户反馈处理等核心功能。系统采用对话(Conversation)和消息(Message)双数据模型架构:对话模型记录会话元数据(如应用ID、交互模式、状态等),消息模型存储具体交互内容(查询/回复文本、令牌数等)。系统提供分层次服务接口(基础对话服务、Web扩展服务)和三类API端点(控制台API、服务API、WebAPI),支持对话创建、检索、重命名、删除等全生命周期管理
2025-06-16 19:21:01
1548
原创 Dify-7: RAG 知识系统
摘要:Dify的RAG知识系统通过ETL流程管理外部知识检索,核心组件包括数据集(Dataset)、文档(Document)和分段(Segment)。系统支持两种索引技术(高质量向量索引和经济型关键词索引)和三种文档处理形式(全文、问答对和分层结构)
2025-06-11 19:10:32
1644
原创 Dify-5:Web 前端架构
本文介绍Dify Web前端技术架构,采用Next.js框架构建,主要技术栈包括TypeScript、Tailwind CSS和i18next。系统采用模块化设计,包含基础组件、领域组件和页面组件三层架构,支持多语言国际化。通过React Context API进行状态管理,利用Next.js路由实现高效导航。该架构实现了组件复用、状态共享和多语言支持,提供了良好的开发体验和用户交互。
2025-06-03 19:29:01
1272
1
原创 李宏毅NLP-7-CTC/RNN-T文本对齐
本文介绍了三种语音识别模型(LAS、CTC、RNN-T)的解码、训练及对齐机制。LAS模型通过直接计算P(Y|X)实现端到端识别,使用束搜索解码。CTC和RNN-T需要处理语音-文本对齐问题,通过引入空白符并求和可能路径的概率来优化识别。三种模型均采用最大对数似然训练,但对齐方式不同:HMM通过状态转移扩展文本长度,CTC允许插入空白符,RNN-T则强制每个token至少出现一次。网格图展示了各模型的对齐路径选择规则,包括字符重复、空白符插入等约束条件,有效解决了语音与文本的时间不对齐问题。
2025-05-26 23:42:09
1020
Stefano Mattoccia 的讲义 Stereo Vision: algorithms and applications
2016-09-14
智能时代 吴军 .mobi 电子书
2016-10-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅