liliangcsdn-优快云博客

原创 VAE和DDPM模型训练差异的探索

VAE和DDPM训练上的差异，源于它们在概率框架、优化目标和梯度估计方法上的根本不同。这里尝试从以下3个层面探索VAE和DDPM的差异。

2026-01-08 23:03:17 569

原创 CodeFormer基于LPIPS和VQVAE实现高质量人脸修复

在CodeFormer中应用LPIPS Loss等感知损失，解决不适定问题的核心，将优化目标从像素精确转导向感知合理，引导模型在众多可能解中选择最视觉可信的一个。同时解决了L1/L2损失的模糊化问题，直接激励模型生成高频细节和清晰纹理，与对抗损失互补，对抗损失负责全局一致性，感知损失负责细节真实性。LPIPS与离散码本先验完美契合，码本存储的是视觉原子，而LPIPS Loss确保这些原子的组合方式在感知上是和谐的，共同约束了解空间。

2026-01-08 18:24:20 777

原创 bash中awk如何切分输出

在Bash中，使用`awk`切分输出有多种方式。这里示例几种常见的使用方法。

2026-01-08 16:06:33 339

原创在CUA智能体开发应用系统的挑战探索

CUA（Cognitive User Agent）作为基于大模型的智能体系统，在灵活性与成本效率间存在矛盾。这里尝试探索CUA智能体面临的主要问题，以及CUA智能体相比直接编程的优势和劣势。

2026-01-07 19:16:43 500

原创向量量化的变分自编码器VQ-VAE理论基础的探索

编码器产生连续向量：其中是编码器神经网络，输出维度为。VQ-VAE的核心贡献在于：1）离散潜在表示，更符合许多模态（语言、语音）的本质2）解耦训练，表示学习与序列建模分离3）可扩展性，支持层次化、多尺度架构4）实用性，为自回归生成模型提供高质量的离散输入VQ-VAE离散表示在生成建模中优势明显，被后续一系列生成式框架采用，如DALL-E、AudioLM、Codeformer。

2026-01-05 23:07:07 698

原创计算机使用智能体CUA与场景应用融合探讨

计算机使用智能体CUA(Computer-Using Agent)与场景应用深度融合，关键在于解决集成、理解、安全和效率上的挑战，进化成“懂场景、能协作、安全可靠”的数字伙伴。这里尝试基于网络资料，探索CUA和场景应用的具体融合。

2026-01-05 17:37:28 491

原创 VAE中Encoder和Decoder的理论基础的探索

这里从Encoder和Decoder的角度探索VAE。所用示例参考和修改自网络资料。

2026-01-05 14:11:58 345

原创全方差公式在DDIM中的应用示例

全方差公式（Law of Total Variance）是概率论中一个重要的方差分解公式，形式如下。全方差公式把随机变量 X的方差分解为条件方差的期望和条件期望的方差。这里探索全方差公式的基本形式，以及在DDIM中的应用示例。所用示例参考和修改自网络资料。

2026-01-04 15:46:08 916

原创如何使用sql模糊检索以指定字符开头的数据

SQL使用LIKE来模糊搜索，允许搜索过程中使用通配符，以替代具体的字符或字符串。通配符主要为百分号和下划线，百分号代表零个或多个任意字符，下划线代表单个任意字符。这里示例如何使用sql模糊检索以指定字符开头的数据，所用例子参考和修改自网络资料。

2026-01-04 11:51:08 265

原创 DDIM扩散模型改进采样策略的推理探索

特性DDPMDDIM前向过程马尔可夫链非马尔可夫过程反向过程随机（马尔可夫）可确定性（训练目标 (预测噪声)完全兼容DDPM模型，无需重新训练采样速度慢（需满步T）快（可在子序列上跳跃采样）样本一致性随机确定性映射（相同隐变量得相同样本）理论贡献奠定了扩散模型基础解耦训练与采样，揭示了扩散模型非马尔可夫本质。

2026-01-03 23:43:42 607

原创全期望公式在DDIM中的应用实例

全期望公式在DDIM推导中起到了关键作用。1）连接了条件分布和边缘分布，通过中间变量架起了桥梁2）简化了计算，避免了对联合分布直接积分求边缘分布的复杂计算3）验证了构造的正确性，证明了无论如何选择，只要条件分布按特定形式定义，边缘分布就能保持与DDPM一致这正是DDIM能够设计非马尔可夫前向过程而保持训练目标不变的理论基础。

2026-01-03 21:10:04 619

原创 MySQL存储字节类数据的方案示例

MySQL通常不建议存储字节类数据比如pickle.dump后的数据，因为会破坏数据范式。然后实际场景可能需要MySQL存储复杂类型数据，比如模型训练的复杂记录信息。MySQL可以存储字节类数据，但需要提前将这些数据序列化。这里示例几种存储字节类数据的方法。

2025-12-31 15:59:15 416

原创 curl如何发送json文件数据示例

在测试服务时，可能需要curl以post方式提交json数据。如果数据比较复杂，可能需要保存数据为json文件，然后curl提交。这里示例curl如何提交文件格式的json数据，所用示例参考和修改自网络资料。

2025-12-30 19:09:32 396

原创 LDM潜在扩散模型的探索

为理顺LDM推导过程，对用到的概念进行定义约束。原始图像：编码器：，将映射为潜变量解码器：，重构图像扩散时间步：前向噪声调度：，定义。

2025-12-29 23:43:50 631

原创 json序列化参数ensure_ascii使用示例

python在使用json序列化中文数据后，中文字符变为ascii编码形式，导致可读性下降。这里示例json序列化时，如何通过设置ensure_ascii参数，确保序列化后中文依然可读。所用示例参考和修改自网络资料。

2025-12-29 22:24:36 240

原创 Python段落分割并保留句子标点的示例

在Python中，将段落分割成句子并保留结尾标点符号有多种方法。这里尝试示例以下是几种常用的方法，所用例子收集和修改自网络资料。

2025-12-29 19:21:03 277

原创 DDPM后向去噪过程详细推导

之前整体探索了SD稳定扩散模型的理论基础DDPM（Denoising Diffusion Probabilistic Models）。这里进一步探索推导DDPM的后向去噪过程，逐步展示扩散模型推理到训练过程的完整数学推导。DDPM后向过程展示了如何通过变分推断将生成问题转化为去噪问题，是理解SD生成的基础。关键结论整理如下。1）真实后验分布：可以通过贝叶斯定理推导出闭式解2）参数化技巧：预测噪声而非直接预测均值，简化了学习目标3）简化损失：最终训练目标简化为预测噪声的MSE损失。

2025-12-28 12:04:56 845

原创 DDPM前向加噪过程详细推导

前向过程是一个马尔可夫链，逐步向数据添加高斯噪声：其中每一步的转移概率为：参数说明：：噪声调度参数，满足：保留的信号比例：单位矩阵。

2025-12-27 22:17:54 464

原创 SD稳定扩散模型理论基础的探索

Stable Diffusion 模型的理论基础与公式推导可以概括为如下几方面。

2025-12-27 11:39:20 647

原创常用pdf解析提取工具的分析和示例

目前，大量的文档采用pdf格式。相比word文档，pdf由于缺乏结构化支持，提取相对困难。这里示例常用的pdf文档解析工具，比如pypdf、pdfplumber。所用代码参考和修改自网络资料。

2025-12-26 12:54:46 356

原创对多模态扩散模型UNet架构的探索

UNet将文本嵌入作为条件信息，与图像特征信息融合，在去噪时遵循文本描述生成相关的图像。而扩散模型的训练过程，则是一个对“噪声残差”进行预测和优化的循环过程。这里结合Unet组件和伪代码尝试说明这一过程。

2025-12-25 19:00:19 871

原创如何在jupyter-lab显示http链接的图片

这里示例jupyter-lab代码单元格中显示图片显示http图片的多种方式。所用示例参考和修改自网络资料。

2025-12-25 14:44:14 289

原创 LLM MoE 形式化探索

一个大语言模型MoE层可以最简洁地定义为：一个高效的稀疏门控函数G(x)。一个强制的负载均衡约束。一个支持大规模条件计算和专家并行的分布式系统。这种架构使模型规模突破了传统稠密模型的硬件限制，成为当前构建万亿参数级别大语言模型的主流技术路径之一（如Mixtral 8x7B， DeepSeek-V3， Grok-1等）。以下是对MoE的优势和挑战的总结。方面优势（形式化）挑战（形式化）计算效率计算成本参数量k≪E，实现了条件计算。内存占用。

2025-12-24 22:30:25 638

原创 computer use类LLM控制计算机工具的探索

将LLM（大语言模型）作为“大脑”来控制计算机完成任务，正在从概念验证快速走向实际应用。这不仅仅是简单的自动化，而是朝着创建通用AI助理/代理的方向发展。以下是对这个领域的进一步探索，涵盖不同层次、现有工具、技术挑战和未来展望。

2025-12-24 16:34:29 609

原创 python下载并转存http文件链接的示例

这里示例python下载http图片并转存为图片文件的几种方案。所用示例参考和修改自网络资料。

2025-12-24 11:59:52 203

原创 python模拟beam search优化LLM输出过程

beam search是一种用于序列生成的搜索算法，它在每一步扩展多个候选序列（称为beam），并保留最有可能的k个（beam width）序列，直到生成结束。这里示例beam search工作原理，以及如何在实际中应用和优化beam search。所用示例参考和修改自网络资料。

2025-12-23 18:13:01 686

原创大语言模型的注意力竟然有极限

现有LLM推理中，温度参数是优化模型输出敏感性的重要手段，论文指明这种方式也是有限制的。基于softmax的注意力机制本质上是一个“分辨率有限的选择器”。它在关键信息只占上下文很小一部分时工作良好，一旦需要关注的信息比例变大，其性能就会可预测地衰减。LLM的“注意力”极限，本质上是现有Transformer架构在计算效率、信息密度和资源分配上的根本性约束。它不是一个“bug”，而是当前技术路径下的一个核心特征。这个极限意味着，“支持长上下文”不等于“完美理解长文档”。

2025-12-23 15:43:25 502

原创 Python拒绝采样算法优化与微调模拟

拒绝采样(Rejection Sampling)是一种从复杂分布中生成样本的蒙特卡洛方法。下面将展示多种拒绝采样算法。对于简单分布，基础拒绝采样通常足够；对于复杂多峰分布，自适应或分层方法更有效；混合提议分布可以更好地匹配目标分布的形状。对于优化和模拟拒绝采样，需要注意以下几点：- 选择合适的提议分布以匹配目标分布- 找到尽可能小的M值以提高接受率- 对于不同区域使用不同的提议分布（分层/混合）

2025-12-22 23:25:48 909

原创大模型融合访问开源工具 - LiteLLM

LiteLLM 是一个开源工具，它像一个大语言模型的“万能遥控器”。LiteLLM提供标准的API 接口，用一套代码调用上百种不同厂商大模型。简化了集成管理的工作。LiteLLM的核心价值在于将复杂的底层差异封装起来，为开发者提供统一、强大的管理能力。LiteLLM通过模型名称区分大模型，比如model="ollama/gemma3n:e2b"，表示模型为ollama大模型model="openai/gemma3n:e2b"，表示模型为openai兼容的大模型。

2025-12-22 16:23:59 617

原创面向大语言模型评估去偏框架UAD解读

UAD是面向大语言模型（LLM）评估去偏的完整实现框架，旨在解决当不同大语言模型作为“裁判”评估其他模型答案时产生的系统性偏差问题。这里尝试解析UAD核心机制，并提供关键代码片段的解读和一个简化的可运行模拟版本。

2025-12-21 16:58:09 487

原创大模型操作计算机完成数据采集任务示例 - OWL

OWL（Optimized Workforce Learning）是CAMEL-AI团队开发的一个多智能体（Multi-Agent）协作框架，通常被视为对标Manus的开源替代方案。OWL注重自主规划与执行，能够启动Ubuntu容器，自动挂载数据、制定并执行任务计划。OWL的技术特点与其背后的CAMEL-AI社区紧密相关：多智能体协作机制：其工作流程依赖于“角色扮演”，由 AI User（负责提出任务和反馈）和 AI Assistant（负责规划并调用工具执行）两个智能体通过对话协作完成任务。

2025-12-20 11:50:43 955

原创 mac m1安装homebrew和iterm2示例

homebrew和iterm2是使用mac系列笔记本开发的常用工具。这里参考网络资料，示例mac m1安装homebrew和iterm2的过程。

2025-12-19 18:21:32 335

原创 OpenManus测试相关的问题

如果想尝试非daytona的OpenManus，可以尝试OpenManus迁移到FoundationAgents前的版本。OpenManus是类似Manus且支持本地部署的开源框架，支持基于LLM控制计算机完成具体任务。目前，OpenManus由MetaGPT的组织FoundationAgents维护，连接如下。这个版本的OpenManus在代码中强制绑定Daytona，Daytona不再是可选项。需要在daytona注册账户获取daytona_api_key，否则有可能导致运行失败。

2025-12-19 16:02:44 160

原创 elasticsearch多字段组合查询示例

之前探索了elasticsearch如何插入数据和检索。这里进一步探索多字段的组合查询，同时涉及精确查询和模糊查询。所用示例参考和修改自网络资料。

2025-12-19 14:17:28 952

原创 RAG信息检索基准&评测指标的分析和探索

这里从多个角度分析和探索RAG信息检索常用的基准和评测指标。比如NDCG、Rough-L、延迟、效率等。

2025-12-18 16:01:14 276

原创如何在mac m1模拟鼠标与键盘的自动化操作

需要注意的是，pyautogui库在 Windows、macOS 和 Linux 上都可以运行，但不同平台的热键或鼠标操作略有差异。在使用过程中，应根据具体平台的特点进行适当的调整。reference---使用Python实现鼠标与键盘自动化操作：从基础到实战应用Mac arch切换x86_64。

2025-12-18 12:37:01 998

原创能控制计算机桌面的多模态AI agent

随着llm的能力越来越强，基于LLM的多模态AI agent框架和桌面工具越来越接近实用。这里收集这些开源的ai agent框架和桌面助手工具。

2025-12-17 16:34:31 712

原创如何用Elo+Pearson优化偏差消除模型

这里尝试通过结合Elo+Pearson优化，降低不同主体的评估偏差假设一个模型，需要对多个主体（例如不同的人、不同的设备等）进行评分，但由于不同主体之间存在差异，直接评分可能会有偏差。这里使用Elo系统来动态调整每个主体的评分，并使用Pearson损失来训练模型，使得模型的评分与真实表现之间的相关性更强。

2025-12-17 00:24:45 919

原创如何用DSPy优化chromadb向量检索的RAG系统

之前探索了如何用DSPy优化RAG prompt。这里首先设定带向量检索的RAG系统，然后通过DSPy优化基于retriever的RAG检索功能。所用测试例和代码修改自网络资料。

2025-12-14 10:22:33 698

原创如何用DSPy优化RAG prompt示例

首先是LLM模型设置，这里配置LLM模型ollama/gemma3n:e2b，示例代码如下。# 1. 配置语言模型 (这里以OpenAI为例，需提前设置API密钥)然后是定义检索器，这里构建模拟知识库，通过计算查询词在文档中出现的次数在匹配相关文档。实际项目中，应该用真实向量数据库替代这里的基于频次的retriever文档匹配逻辑。示例代码如下所示。# ===== 2. 构建模拟知识库（实际项目中替换为真实向量数据库） ====="""一个简单的内存检索器，模拟向量数据库功能"""

2025-12-13 23:50:33 1019

空空如也

空空如也