uncle_ll-优快云博客

原创个人分享及推荐

分享这里是我在平时阅读到的好书、好资料，我把他们都放在此处，也算是我自己的一个收藏夹。所有的这些都是我自己阅读完了，认为质量很不错，对成长有帮助的文章，希望他们也能给你带来成长

2020-01-11 20:15:07 447

多模态嵌入技术：打破AI的模态壁垒多模态嵌入技术通过将文本、图像等不同模态数据映射到同一向量空间，实现了跨模态语义理解。OpenAI的CLIP模型采用双编码器架构和对比学习策略，开创性地实现了图文语义对齐。北京智源研究院的BGE-M3在此基础上进一步发展，通过网格嵌入和多语言支持，提升了复杂场景的处理能力。这些技术突破使AI系统能够理解"一只奔跑的狗"的文字描述与对应图片的语义关联，为跨模态检索、零样本识别等应用奠定了基础。代码示例展示了如何下载和使用Visual BGE模型进行多模态

2025-12-04 19:40:06 519

原创向量嵌入：RAG系统背后的语义引擎

向量嵌入技术将高维语义信息压缩为低维向量，使相似概念在向量空间中聚集。作为RAG系统的核心，嵌入质量直接影响语义检索效果。从静态词嵌入到动态上下文嵌入，技术不断演进，解决了多义词等难题。现代嵌入模型基于Transformer架构，通过对比学习优化检索性能。选型需考虑MTEB排名、语言支持等维度，并结合业务测试。未来趋势包括多模态融合、知识图谱增强和轻量化部署。嵌入技术已成为NLP领域的关键支柱，其优化对提升RAG系统性能至关重要。

2025-11-29 12:55:56 1543

原创李宏毅NLP-14-NLP任务

自然语言处理（NLP）任务主要分为文本生成和文本分类两大类。文本生成任务（如机器翻译、文本摘要）通过生成式模型创造新文本；文本分类任务（如情感分析、垃圾邮件识别）则通过分类模型为文本打标签。分类任务分为单类别和多类别两种。序列到序列（Seq2Seq）模型是处理文本转换任务的核心技术，包含编码器、解码器、注意力等机制。多文本输入处理可采用简单拼接或序列间注意力整合策略。NLP任务还可按输入序列数量和输出类型进行二维分类，涵盖情感分类、序列标注、问答等多种应用场景。词性标注等任务则属于序列标注的具体应用。

2025-11-16 20:58:30 1210

原创 RAG系统中的文本分块技术：从基础策略到智能分块的深度解析

文本分块是RAG（检索增强生成）系统的核心环节，直接影响知识检索的精度和效率。本文系统分析了文本分块的核心价值、经典策略和智能进阶技术。固定大小分块和递归字符分块是基础策略，能够适配模型上下文窗口限制；语义分块通过嵌入向量和语义距离实现上下文感知的动态切分；结构化文档分块则利用标题层级保留元数据。此外，Unstructured框架基于文档元素智能分块，LlamaIndex采用面向节点的解析方法。不同分块策略各具特点，需要根据文档类型和应用场景灵活选择，以优化检索性能和生成质量。

2025-11-14 22:45:00 668

原创音画同步革命：IndexTTS2深度解析——B站开源的情感化+时长可控TTS新标杆

哔哩哔哩IndexTTS2开源项目突破传统TTS技术瓶颈，通过三大创新实现音画精准同步和情感自然表达：1）时间编码机制实现毫秒级时长控制，误差率低于0.07%；2）特征解耦架构支持音色与情感独立调控，情感相似度达0.887；3）三阶段训练范式提升生成稳定性。该系统提供双生成模式（精准控时/自然韵律）、零样本音色克隆（5秒参考音频即可）、跨语言支持等特性，并具备工业化部署能力。开发者可通过简单API或WebUI快速实现情感化语音合成，适用于影视配音、虚拟主播等场景。

2025-11-05 20:15:00 1511

原创无分词器 TTS 新标杆：VoxCPM 全解析 —— 从原理到实战的高保真语音生成指南

VoxCPM创新性地采用无分词器端到端架构，突破传统TTS模型信息损失瓶颈，实现了高保真语音合成与克隆。该模型融合扩散自回归架构和MiniCPM-4语言模型骨干，支持连续语音信号生成与上下文感知表达。核心优势包括：仅需5秒音频即可完成零样本克隆（相似度达0.93）、实时因子低至0.17的流式合成，以及支持中英文混合、情感语调自适应等复杂场景。测试显示其性能超越同类开源模型，同时保持轻量化（0.5B参数）。开发者可通过简单API快速集成，但需注意克隆功能的法律合规要求。VoxCPM为语音生成领域提供了兼具高自

2025-11-04 22:30:00 1537

原创 Milvus 可视化管理利器：Attu 全面指南

Attu是Milvus向量数据库的官方图形化管理工具，通过可视化界面简化了数据库操作。它支持数据管理、向量操作、检索验证、权限控制和系统监控等核心功能，覆盖Milvus全生命周期管理。提供Docker、桌面应用和Kubernetes三种部署方式，支持快速验证和生产环境使用。Attu与Milvus版本强绑定，2.6.x及以上版本为专有许可证，而2.5.x及以下版本可二次开发。作为降低Milvus使用门槛的关键工具，Attu特别适合混合检索等复杂场景的开发与调试。

2025-11-04 20:00:00 1260

原创 DataFun：智能风控与业务安全

，最终目标是让智能体在风控领域的知识、判断、协作能力，达到 “拥有五年经验的人类风控专家” 水平，实现从 “模型智能” 到 “业务智能” 的落地。从。

2025-10-18 12:27:50 850

原创 Sherpa 语音识别工具链安装指南（Linux CPU 版）

本文详细介绍了在Python 3.10环境下安装Sherpa语音处理工具集的完整流程。主要内容包括：系统环境配置（推荐Ubuntu/CentOS系统）、虚拟环境创建、核心组件（PyTorch 2.5.0、k2、kaldifeat等）的安装方法与版本匹配技巧，以及Sherpa-ONNX轻量推理引擎的部署。文章还提供了安装验证方法和TTS语音合成示例，帮助用户快速测试功能。整个安装过程强调版本兼容性，通过whl文件离线安装确保稳定性，适合需要语音识别和实时音频处理的开发者参考。

2025-10-17 20:25:17 809

原创 RAG系统中的数据加载：从文档解析到Unstructured实战

数据加载是RAG系统的关键第一步，直接影响后续流程质量。本文对比了PyMuPDF4LLM、Unstructured等主流文档加载工具，重点解析Unstructured库的多格式支持与智能内容解析能力。通过代码示例演示了如何加载PDF文档并统计元素类型，比较了不同解析策略的适用场景。最后提供常见问题处理方案，强调数据质量对系统性能的决定性作用。

2025-09-11 09:05:37 852

原创 Git 别名：用简短命令大幅提升开发效率

摘要： Git别名通过简化高频复杂命令（如git st代替git status）显著提升开发效率。核心配置方法包括全局设置（git config --global alias.st status）和项目级设置，支持基础操作、日志优化（如彩色图表输出git lg）及Shell脚本嵌入。最佳实践建议采用2-3字母动词缩写（如cm表示commit），保持命名简洁一致。典型场景如日常提交（git cm "msg"）、分支管理（git cb feature），可节省30%-50%操作时间。通过gi

2025-09-03 20:20:53 501

原创 Resemble Enhance：AI语音增强技术的革新之作

Resemble Enhance是由Resemble AI开发的AI语音增强工具，通过去噪和增强两阶段处理提升语音质量。核心功能包括消除背景噪音（街道声、音乐等）和修复模糊/卡顿音频，采用44.1kHz训练数据与自编码器+声码器架构。支持快速安装（pip install）或源码定制，提供Web演示和命令行批量处理（可调去噪强度等参数）。适用于会议录制、语音助手等场景，具备高精度去噪和带宽扩展优势。开发者可参考GitHub仓库进行模型训练或应用部署。

2025-09-02 22:30:00 889

原创李宏毅NLP-13-Vocoder

本文介绍了声码器（Vocoder）在语音合成中的关键作用及其技术演进。声码器负责将前端模型生成的声学特征（如频谱图）转换为可听波形，其发展经历了从传统Griffin-Lim算法到现代深度学习方法的跃迁。重点解析了WaveNet这一开创性神经声码器：采用因果卷积和膨胀卷积构建自回归模型，通过μ-law压缩解决音频高维难题，逐点生成高保真语音。文章还对比了幅度谱与相位谱的特性差异，并阐述了声码器作为通用波形生成模块的价值——可复用于TTS、语音转换等多场景，通过任务拆分实现语音细节的独立优化。

2025-08-31 18:40:56 1172

原创 RAG中使用到的相关函数注释——LangChain核心函数

langchain中的常用类

2025-08-26 23:00:00 534

原创李宏毅NLP-12-语音分类

本文介绍了说话人识别与验证的核心技术。说话人识别属于多分类问题，通过语音特征判断说话人身份；说话人验证则是二分类任务，通过比较两段语音的声纹相似度进行身份确认。重点阐述了说话人验证系统的评估指标EER（等错误率）及其在安全与体验场景中的权衡应用。此外还介绍了说话人分离技术及其会议记录等应用场景。最后详细讲解了基于嵌入的说话人验证三阶段框架：开发阶段训练通用特征模型，注册阶段存储说话人嵌入模板，评估阶段进行身份验证。这些技术广泛应用于金融安全、智能助手等领域。

2025-08-23 17:59:30 921

原创新手入门：用 LangChain+LlamaIndex 构建 RAG，通义千问 API 免费够用

本文介绍了如何利用阿里通义千问API结合LangChain和LlamaIndex框架搭建RAG系统，特别适合零基础开发者。主要内容包括：1）通过Conda创建虚拟环境；2）配置通义千问API密钥；3）使用LangChain实现完整RAG流程，包括文档加载、文本分块、向量索引构建、文档检索和答案生成；4）详细解析了代码实现和参数配置，并提供了运行验证方法。该方案具有成本低（免费API额度）、配置简单（无需复杂运维）的特点，能有效解决新手在RAG实践中遇到的两大难题。

2025-08-19 18:00:00 1322

原创 RAG 入门指南：从概念到最小系统搭建

RAG（检索增强生成）技术通过融合信息检索与文本生成，有效解决大语言模型的知识过时、幻觉输出等问题。其核心流程包括文档索引构建、相关信息检索和生成优化三个阶段，可根据不同场景需求选择初级、高级或模块化RAG方案。相比传统LLM，RAG具有知识实时更新、输出可溯源、成本效益更优等优势，适用于文档查询、专业咨询等多种场景。实践层面，开发者可利用LangChain、FAISS等工具链，通过数据准备、索引构建、检索优化和生成集成四个步骤快速搭建最小可行系统。该技术正成为提升LLM实用性的重要解决方案。

2025-08-18 19:32:08 1220

原创使用 uv管理 Python 虚拟环境：比conda更快、更轻量的现代方案

uvuv是 Python 开发者的新宠，它以Rust 的性能优势和现代化设计，解决了传统工具的痛点。如果你专注于 Python 生态，追求速度和轻量化，uv是理想选择；而conda仍然是科学计算领域的全能选手。根据项目需求选择合适的工具，才能事半功倍！

2025-08-18 19:11:33 1829

原创李宏毅NLP-11-语音合成

语音合成技术经历了从早期电子合成到现代神经网络的演进过程。1939年贝尔实验室的VODER首次用电子设备模拟人类语音，开创了语音合成先河。1960年代计算机辅助合成技术出现，随后拼接式合成方法通过拼接预录语音片段实现自然语音输出，但受限于数据依赖性。参数化合成（HMM/DNN）通过统计模型生成语音，提高了灵活性。2017年Deep Voice首次采用模块化神经设计，实现文本到语音的直接映射。

2025-08-17 18:05:59 905

原创 Dify-17: 扩展模型提供方

本文介绍了在Dify平台扩展新模型提供方的完整流程。系统采用模块化架构，包含ModelInstance、ProviderManager等核心组件，支持多种AI模型类型。开发者需创建提供方实现文件，继承相应模型基类并实现必要接口（如大语言模型的invoke方法）。平台提供凭证加密、负载均衡和回调监控功能，支持系统配置和用户自定义配置。集成步骤包括定义凭证模式、实现认证逻辑、测试模型调用等关键功能，并最终注册到提供方工厂。Dify的安全机制确保凭证处理安全，同时支持高可用场景下的负载均衡。通过此扩展机制，开发者

2025-08-13 18:28:32 1196

原创 Dify-16: 开发环境配置

本指南详细介绍了Dify本地开发环境的搭建流程，包括API后端(Python/Flask)和Web前端(Next.js)的配置。系统要求安装Python 3.11+、Node.js v18.18+、Docker等必需软件，并推荐使用VS Code等开发工具。配置步骤涵盖中间件服务(Docker Compose)、API后端(UV依赖管理、数据库迁移)和Web前端(pnpm依赖管理)的设置，提供了完整的开发测试流程说明。环境变量部分详细解释了API和Web的关键配置参数，并提供了通过Docker一键部署完整栈

2025-08-07 21:56:55 1508

原创 Agent X MCP 把想法编译成现实

本文展示了一系列AI技术应用的视觉演示，主要涵盖三个方向：1）多模态GUI智能体，通过图形界面实现人机交互；2）协作型AI系统，展示多个智能体协同工作的场景；3）魔搭社区MCP（Model Collaboration Platform）及其与硬件结合的实践案例。这些演示呈现了AI在界面交互、协同计算和硬件集成方面的前沿探索，体现了人工智能技术向多模态、协作化和硬件落地的演进趋势。

2025-08-02 15:50:53 243

原创李宏毅NLP-10-语音分离

摘要本文系统介绍了语音分离技术，重点分析说话人分离任务。语音分离包含语音增强（降噪）和说话人分离（分离重叠语音）两个方向。说话人分离任务需从混合音频中分离出独立说话人信号，研究集中于单麦克风、双说话人场景，并需解决训练与测试说话人不同的泛化问题。文章详细阐述了评估指标（SNR、SI-SDR、PESQ、STOI）及其优缺点，特别是SI-SDR通过信号投影解决了SNR的幅度作弊问题。针对说话人分离的置换问题，介绍了基于掩码的方法，通过生成时频掩码矩阵从混合信号中分离目标语音。该技术可应用于会议记录、语音识别等

2025-08-02 14:01:26 1004

原创 Dify-15: 开发指南

Dify开源项目开发指南摘要：本文详细介绍了Dify开源AI开发平台的贡献指南，包含完整的开发环境配置流程和扩展开发方法。开发环境搭建需同时配置Python/Flask后端(3.11+版本)和Next.js前端(Node.js 18.18+)，使用Docker部署中间件服务。系统采用微服务架构，包含API服务层、异步任务处理和向量数据库集成。指南提供了模型提供方扩展、插件开发和UI组件定制的方法，并涵盖国际化支持、测试框架(pytest/Jest)及生产环境部署说明。常见问题排查和开发命令参考帮助开发者快速

2025-07-30 20:15:48 876

原创 Dify-14: 工作流API端点

Dify工作流API文档摘要：本文详细介绍了Dify平台的工作流API接口，支持开发者通过编程方式执行、监控和管理工作流。主要包含执行端点（POST /workflows/run）和控制端点（如停止执行和获取详情），支持流式和阻塞两种响应模式。所有请求需通过API密钥进行身份验证，并支持文件处理（远程URL或本地上传）。文档还提供了错误代码说明和完整请求示例，帮助开发者实现与聊天应用集成及复杂工作流编排。特别强调需安全存储API密钥，避免客户端暴露。

2025-07-28 22:30:00 1570

原创 Dify-13: 文本生成API端点

本文档介绍了Dify平台提供的文本生成API功能，适用于翻译、摘要等非对话式AI应用场景。API支持单次请求处理，无需维护会话上下文。所有请求需通过API密钥进行身份验证，建议采用流式响应模式提升性能体验。核心端点/completion-messages支持POST请求，接收包含query字段的inputs参数，可附加文件（如图片）。响应提供阻塞（完整返回）和流式（SSE分块）两种模式，包含token用量计费信息。文档还包含文件上传、停止生成和消息反馈等辅助端点说明，并列出常见错误代码（如参数无效400

2025-07-22 23:00:00 931

原创 Base44：用自然语言 “说” 出你的 Web 应用，AI 零代码开发有多颠覆？

Base44是一款AI驱动的零代码应用开发平台，让用户通过自然语言描述快速生成全功能Web应用。其核心特点包括：1）自然语言交互，用户用日常语言描述即可自动生成前后端代码；2）全栈一体化技术栈，内置数据库、API等企业级服务；3）商业化场景优化，支持短信、地图等实用功能。平台采用成本优化的Claude模型，上线3周即获1万用户，半年内实现盈利，2025年被Wix以8000万美元收购。Base44提供可视化编辑器、版本控制和协作功能，支持数据管理和行级安全设置，适合快速构建MVP或内部工具。其成功证明了AI时

2025-07-15 22:10:11 3179

原创 Dify-11: API参考

Dify API开发指南摘要：本文详细介绍了Dify服务的API集成方式，支持开发者编程调用不同类型AI应用功能。API分为四种应用类型：聊天应用（带会话历史）、文本生成应用（无状态）、工作流应用（多步骤流程）和智能体聊天应用（工具增强）。

2025-07-14 09:13:58 3400

原创李宏毅NLP-9-语音转换

可从。

2025-07-09 23:33:39 1416

原创李宏毅NLP-8-语音模型

语言模型与连续语言模型解析语言模型(LM)通过估计token序列概率来评估文本合理性，在语音识别等任务中发挥重要作用。传统N-gram模型依赖离散词频统计，面临数据稀疏问题，导致未见过词组合概率被错误估计为0。连续语言模型创新性地引入推荐系统的矩阵分解思想，将词和上下文表示为低维向量，通过向量内积预测共现概率。这种方法利用向量相似性的泛化能力，自动为未观察到的词组合分配合理概率，有效解决了N-gram的稀疏性缺陷，实现了类似神经网络的连续表示优势。

2025-07-06 15:50:05 1121

原创李宏毅NLP-7-计算分数和训练和测试

模型核心特点适用场景缺点LAS依赖注意力，隐式对齐，建模长距离依赖离线高精度识别（如语音转写）不支持在线实时处理CTC独立解码，显式对齐，支持在线实时简单识别（如关键词检测）无法建模 token 依赖RNN - T依赖解码，显式对齐，支持在线，建模依赖实时高精度识别（如语音助手）训练和推理复杂度较高。

2025-07-03 07:26:18 1114

原创 Dify-12: 聊天应用API端点

Dify 聊天 API 文档摘要：该文档详细介绍了 Dify 平台的聊天 API 功能，提供包括消息发送、文件上传、对话管理等完整接口说明。API 采用 Bearer Token 认证，支持流式和阻塞两种响应模式，并允许文件上传实现多模态交互。核心功能包含创建/停止消息、上传文件、管理对话历史等功能，同时提供详细的请求/响应参数说明及示例。强调 API 密钥需安全存储于服务端，防止客户端泄露风险。文档结构清晰，包含端点列表、参数表格和 JSON 示例，为开发者提供全面的集成指南。

2025-06-25 19:41:29 1625

原创 Dify-10:租户管理

用户账户：注册、认证、资料管理工作区（租户）：包含独立成员和资源的组织单元成员与角色：工作区内的基于角色访问控制（RBAC）认证流程：支持密码、邮箱验证码、OAuth 等多种认证方式该系统通过提供身份和访问控制，与 RAG 知识系统（参见 RAG 知识系统）、对话系统（参见对话系统）等组件集成。

2025-06-18 19:15:36 2179

原创 Dify-9:模型提供方系统

Dify 中的模型提供方系统负责管理与各种人工智能模型提供方的集成，处理凭证信息，并为调用模型提供统一的接口。该系统使 Dify 能够通过一个通用的抽象层与多个模型提供方（如 OpenAI、Azure OpenAI、Anthropic 等）协同工作，既支持系统管理的凭证（通过 Dify 云服务），也支持用户自定义提供的凭证。

2025-06-17 19:20:23 1044

原创 Dify-8:对话系统

Dify对话系统管理用户与AI应用间的交互会话，包含对话状态追踪、消息存储及用户反馈处理等核心功能。系统采用对话(Conversation)和消息(Message)双数据模型架构：对话模型记录会话元数据（如应用ID、交互模式、状态等），消息模型存储具体交互内容（查询/回复文本、令牌数等）。系统提供分层次服务接口（基础对话服务、Web扩展服务）和三类API端点（控制台API、服务API、WebAPI），支持对话创建、检索、重命名、删除等全生命周期管理

2025-06-16 19:21:01 1548

原创 Dify-7: RAG 知识系统

摘要：Dify的RAG知识系统通过ETL流程管理外部知识检索，核心组件包括数据集（Dataset）、文档（Document）和分段（Segment）。系统支持两种索引技术（高质量向量索引和经济型关键词索引）和三种文档处理形式（全文、问答对和分层结构）

2025-06-11 19:10:32 1644

原创 Dify-6: 部署

本文详细介绍了Dify系统的部署方案，主要包含架构说明、系统要求、部署方法和配置指南

2025-06-10 19:19:20 1994

原创 Dify-5:Web 前端架构

本文介绍Dify Web前端技术架构，采用Next.js框架构建，主要技术栈包括TypeScript、Tailwind CSS和i18next。系统采用模块化设计，包含基础组件、领域组件和页面组件三层架构，支持多语言国际化。通过React Context API进行状态管理，利用Next.js路由实现高效导航。该架构实现了组件复用、状态共享和多语言支持，提供了良好的开发体验和用户交互。

2025-06-03 19:29:01 1272 1

原创李宏毅NLP-7-CTC/RNN-T文本对齐

本文介绍了三种语音识别模型（LAS、CTC、RNN-T）的解码、训练及对齐机制。LAS模型通过直接计算P(Y|X)实现端到端识别，使用束搜索解码。CTC和RNN-T需要处理语音-文本对齐问题，通过引入空白符并求和可能路径的概率来优化识别。三种模型均采用最大对数似然训练，但对齐方式不同：HMM通过状态转移扩展文本长度，CTC允许插入空白符，RNN-T则强制每个token至少出现一次。网格图展示了各模型的对齐路径选择规则，包括字符重复、空白符插入等约束条件，有效解决了语音与文本的时间不对齐问题。

2025-05-26 23:42:09 1020

互联网金融贷后催收合规技术指南

2025-04-11

Stefano Mattoccia 的讲义 Stereo Vision: algorithms and applications

Stefano Mattoccia 的讲义 Stereo Vision: algorithms and applications，自己花了很大力气下下来的，对立体视觉的讲解和各种方法的比较

2016-09-14

deppfake.pdf

deepface ppt介绍如何使用的

2019-10-29

s3-python.pdf

亚马逊 aws s3 python接口文档可供参考

2020-09-01

中国医学影像AI白皮书.pdf

白皮书 | 医学影像

2020-08-31

HammerDB mysql及oracle数据库性能测试工具

适合Linux 64位系统，mysql及oracle性能的小工具。的

2017-08-07

今日头条20代年轻人群指数研究报告-2019.8-58页.pdf

今日头条人群消费调查，涵盖各个行业。

2019-10-18

2019年武汉市文化与金融白皮书报告.pdf

武汉市文化与金融白皮书 2019 。

2019-11-10

智能时代吴军 .mobi 电子书

大数据和机器智能的出现，对我们的技术发展、商业和社会都会产生重大的影响。作者吴军在《智能时代：大数据与智能革命重新定义未来》中指出，首先，我们在过去认为非常难以解决的问题，会因为大数据和机器智能的使用而迎刃而解，比如解决癌症个性化治疗的难题。同时，大数据和机器智能还会彻底改变未来的商业模式，很多传统的行业都将采用智能技术实现升级换代，同时改变原有的商业模式。大数据和机器智能对于未来社会的影响是全方位的。

2016-10-16

鸟叔私房菜

ARM的一些资料，浅俗易懂，可以自行下载浏览自学。

2014-05-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人