- 博客(396)
- 收藏
- 关注
原创 VAE和DDPM模型训练差异的探索
VAE和DDPM训练上的差异,源于它们在概率框架、优化目标和梯度估计方法上的根本不同。这里尝试从以下3个层面探索VAE和DDPM的差异。
2026-01-08 23:03:17
332
原创 CodeFormer基于LPIPS和VQVAE实现高质量人脸修复
在CodeFormer中应用LPIPS Loss等感知损失,解决不适定问题的核心,将优化目标从像素精确转导向感知合理,引导模型在众多可能解中选择最视觉可信的一个。同时解决了L1/L2损失的模糊化问题,直接激励模型生成高频细节和清晰纹理,与对抗损失互补,对抗损失负责全局一致性,感知损失负责细节真实性。LPIPS与离散码本先验完美契合,码本存储的是视觉原子,而LPIPS Loss确保这些原子的组合方式在感知上是和谐的,共同约束了解空间。
2026-01-08 18:24:20
669
原创 在CUA智能体开发应用系统的挑战探索
CUA(Cognitive User Agent)作为基于大模型的智能体系统,在灵活性与成本效率间存在矛盾。这里尝试探索CUA智能体面临的主要问题,以及CUA智能体相比直接编程的优势和劣势。
2026-01-07 19:16:43
443
原创 向量量化的变分自编码器VQ-VAE理论基础的探索
编码器产生连续向量:其中是编码器神经网络,输出维度为。VQ-VAE的核心贡献在于:1)离散潜在表示,更符合许多模态(语言、语音)的本质2)解耦训练,表示学习与序列建模分离3)可扩展性,支持层次化、多尺度架构4)实用性,为自回归生成模型提供高质量的离散输入VQ-VAE离散表示在生成建模中优势明显,被后续一系列生成式框架采用,如DALL-E、AudioLM、Codeformer。
2026-01-05 23:07:07
696
原创 计算机使用智能体CUA与场景应用融合探讨
计算机使用智能体CUA(Computer-Using Agent)与场景应用深度融合,关键在于解决集成、理解、安全和效率上的挑战,进化成“懂场景、能协作、安全可靠”的数字伙伴。这里尝试基于网络资料,探索CUA和场景应用的具体融合。
2026-01-05 17:37:28
487
原创 全方差公式在DDIM中的应用示例
全方差公式(Law of Total Variance)是概率论中一个重要的方差分解公式,形式如下。全方差公式把随机变量 X的方差分解为条件方差的期望和条件期望的方差。这里探索全方差公式的基本形式,以及在DDIM中的应用示例。所用示例参考和修改自网络资料。
2026-01-04 15:46:08
910
原创 如何使用sql模糊检索以指定字符开头的数据
SQL使用LIKE来模糊搜索,允许搜索过程中使用通配符,以替代具体的字符或字符串。通配符主要为百分号和下划线,百分号代表零个或多个任意字符,下划线代表单个任意字符。这里示例如何使用sql模糊检索以指定字符开头的数据,所用例子参考和修改自网络资料。
2026-01-04 11:51:08
262
原创 DDIM扩散模型改进采样策略的推理探索
特性DDPMDDIM前向过程马尔可夫链非马尔可夫过程反向过程随机(马尔可夫)可确定性(训练目标 (预测噪声)完全兼容DDPM模型,无需重新训练采样速度慢(需满步T)快(可在子序列上跳跃采样)样本一致性随机确定性映射(相同隐变量得相同样本)理论贡献奠定了扩散模型基础解耦训练与采样,揭示了扩散模型非马尔可夫本质。
2026-01-03 23:43:42
607
原创 全期望公式在DDIM中的应用实例
全期望公式在DDIM推导中起到了关键作用。1)连接了条件分布和边缘分布,通过中间变量架起了桥梁2)简化了计算,避免了对联合分布直接积分求边缘分布的复杂计算3)验证了构造的正确性,证明了无论如何选择,只要条件分布按特定形式定义,边缘分布就能保持与DDPM一致这正是DDIM能够设计非马尔可夫前向过程而保持训练目标不变的理论基础。
2026-01-03 21:10:04
611
原创 MySQL存储字节类数据的方案示例
MySQL通常不建议存储字节类数据比如pickle.dump后的数据,因为会破坏数据范式。然后实际场景可能需要MySQL存储复杂类型数据,比如模型训练的复杂记录信息。MySQL可以存储字节类数据,但需要提前将这些数据序列化。这里示例几种存储字节类数据的方法。
2025-12-31 15:59:15
416
原创 curl如何发送json文件数据示例
在测试服务时,可能需要curl以post方式提交json数据。如果数据比较复杂,可能需要保存数据为json文件,然后curl提交。这里示例curl如何提交文件格式的json数据,所用示例参考和修改自网络资料。
2025-12-30 19:09:32
396
原创 LDM潜在扩散模型的探索
为理顺LDM推导过程,对用到的概念进行定义约束。原始图像:编码器:,将映射为潜变量解码器:,重构图像扩散时间步:前向噪声调度:,定义。
2025-12-29 23:43:50
631
原创 json序列化参数ensure_ascii使用示例
python在使用json序列化中文数据后,中文字符变为ascii编码形式,导致可读性下降。这里示例json序列化时,如何通过设置ensure_ascii参数,确保序列化后中文依然可读。所用示例参考和修改自网络资料。
2025-12-29 22:24:36
238
原创 Python段落分割并保留句子标点的示例
在Python中,将段落分割成句子并保留结尾标点符号有多种方法。这里尝试示例以下是几种常用的方法,所用例子收集和修改自网络资料。
2025-12-29 19:21:03
277
原创 DDPM后向去噪过程详细推导
之前整体探索了SD稳定扩散模型的理论基础DDPM(Denoising Diffusion Probabilistic Models)。这里进一步探索推导DDPM的后向去噪过程,逐步展示扩散模型推理到训练过程的完整数学推导。DDPM后向过程展示了如何通过变分推断将生成问题转化为去噪问题,是理解SD生成的基础。关键结论整理如下。1)真实后验分布:可以通过贝叶斯定理推导出闭式解2)参数化技巧:预测噪声而非直接预测均值,简化了学习目标3)简化损失:最终训练目标简化为预测噪声的MSE损失。
2025-12-28 12:04:56
845
原创 DDPM前向加噪过程详细推导
前向过程是一个马尔可夫链,逐步向数据添加高斯噪声:其中每一步的转移概率为:参数说明::噪声调度参数,满足:保留的信号比例:单位矩阵。
2025-12-27 22:17:54
462
原创 常用pdf解析提取工具的分析和示例
目前,大量的文档采用pdf格式。相比word文档,pdf由于缺乏结构化支持,提取相对困难。这里示例常用的pdf文档解析工具,比如pypdf、pdfplumber。所用代码参考和修改自网络资料。
2025-12-26 12:54:46
355
原创 对多模态扩散模型UNet架构的探索
UNet将文本嵌入作为条件信息,与图像特征信息融合,在去噪时遵循文本描述生成相关的图像。而扩散模型的训练过程,则是一个对“噪声残差”进行预测和优化的循环过程。这里结合Unet组件和伪代码尝试说明这一过程。
2025-12-25 19:00:19
870
原创 如何在jupyter-lab显示http链接的图片
这里示例jupyter-lab代码单元格中显示图片显示http图片的多种方式。所用示例参考和修改自网络资料。
2025-12-25 14:44:14
288
原创 LLM MoE 形式化探索
一个大语言模型MoE层可以最简洁地定义为:一个高效的稀疏门控函数G(x)。一个强制的负载均衡约束。一个支持大规模条件计算和专家并行的分布式系统。这种架构使模型规模突破了传统稠密模型的硬件限制,成为当前构建万亿参数级别大语言模型的主流技术路径之一(如Mixtral 8x7B, DeepSeek-V3, Grok-1等)。以下是对MoE的优势和挑战的总结。方面优势(形式化)挑战(形式化)计算效率计算成本参数量k≪E,实现了条件计算。内存占用。
2025-12-24 22:30:25
638
原创 computer use类LLM控制计算机工具的探索
将LLM(大语言模型)作为“大脑”来控制计算机完成任务,正在从概念验证快速走向实际应用。这不仅仅是简单的自动化,而是朝着创建通用AI助理/代理的方向发展。以下是对这个领域的进一步探索,涵盖不同层次、现有工具、技术挑战和未来展望。
2025-12-24 16:34:29
606
原创 python模拟beam search优化LLM输出过程
beam search是一种用于序列生成的搜索算法,它在每一步扩展多个候选序列(称为beam),并保留最有可能的k个(beam width)序列,直到生成结束。这里示例beam search工作原理,以及如何在实际中应用和优化beam search。所用示例参考和修改自网络资料。
2025-12-23 18:13:01
686
原创 大语言模型的注意力竟然有极限
现有LLM推理中,温度参数是优化模型输出敏感性的重要手段,论文指明这种方式也是有限制的。基于softmax的注意力机制本质上是一个“分辨率有限的选择器”。它在关键信息只占上下文很小一部分时工作良好,一旦需要关注的信息比例变大,其性能就会可预测地衰减。LLM的“注意力”极限,本质上是现有Transformer架构在计算效率、信息密度和资源分配上的根本性约束。它不是一个“bug”,而是当前技术路径下的一个核心特征。这个极限意味着,“支持长上下文”不等于“完美理解长文档”。
2025-12-23 15:43:25
500
原创 Python拒绝采样算法优化与微调模拟
拒绝采样(Rejection Sampling)是一种从复杂分布中生成样本的蒙特卡洛方法。下面将展示多种拒绝采样算法。对于简单分布,基础拒绝采样通常足够;对于复杂多峰分布,自适应或分层方法更有效;混合提议分布可以更好地匹配目标分布的形状。对于优化和模拟拒绝采样,需要注意以下几点:- 选择合适的提议分布以匹配目标分布- 找到尽可能小的M值以提高接受率- 对于不同区域使用不同的提议分布(分层/混合)
2025-12-22 23:25:48
909
原创 大模型融合访问开源工具 - LiteLLM
LiteLLM 是一个开源工具,它像一个大语言模型的“万能遥控器”。LiteLLM提供标准的API 接口,用一套代码调用上百种不同厂商大模型。简化了集成管理的工作。LiteLLM的核心价值在于将复杂的底层差异封装起来,为开发者提供统一、强大的管理能力。LiteLLM通过模型名称区分大模型,比如model="ollama/gemma3n:e2b",表示模型为ollama大模型model="openai/gemma3n:e2b",表示模型为openai兼容的大模型。
2025-12-22 16:23:59
616
原创 面向大语言模型评估去偏框架UAD解读
UAD是面向大语言模型(LLM)评估去偏的完整实现框架,旨在解决当不同大语言模型作为“裁判”评估其他模型答案时产生的系统性偏差问题。这里尝试解析UAD核心机制,并提供关键代码片段的解读和一个简化的可运行模拟版本。
2025-12-21 16:58:09
485
原创 大模型操作计算机完成数据采集任务示例 - OWL
OWL(Optimized Workforce Learning)是CAMEL-AI团队开发的一个多智能体(Multi-Agent)协作框架,通常被视为对标Manus的开源替代方案。OWL注重自主规划与执行,能够启动Ubuntu容器,自动挂载数据、制定并执行任务计划。OWL的技术特点与其背后的CAMEL-AI社区紧密相关:多智能体协作机制:其工作流程依赖于“角色扮演”,由 AI User(负责提出任务和反馈)和 AI Assistant(负责规划并调用工具执行)两个智能体通过对话协作完成任务。
2025-12-20 11:50:43
951
原创 mac m1安装homebrew和iterm2示例
homebrew和iterm2是使用mac系列笔记本开发的常用工具。这里参考网络资料,示例mac m1安装homebrew和iterm2的过程。
2025-12-19 18:21:32
333
原创 OpenManus测试相关的问题
如果想尝试非daytona的OpenManus,可以尝试OpenManus迁移到FoundationAgents前的版本。OpenManus是类似Manus且支持本地部署的开源框架,支持基于LLM控制计算机完成具体任务。目前,OpenManus由MetaGPT的组织FoundationAgents维护,连接如下。这个版本的OpenManus在代码中强制绑定Daytona,Daytona不再是可选项。需要在daytona注册账户获取daytona_api_key,否则有可能导致运行失败。
2025-12-19 16:02:44
159
原创 elasticsearch多字段组合查询示例
之前探索了elasticsearch如何插入数据和检索。这里进一步探索多字段的组合查询,同时涉及精确查询和模糊查询。所用示例参考和修改自网络资料。
2025-12-19 14:17:28
950
原创 RAG信息检索基准&评测指标的分析和探索
这里从多个角度分析和探索RAG信息检索常用的基准和评测指标。比如NDCG、Rough-L、延迟、效率等。
2025-12-18 16:01:14
276
原创 如何在mac m1模拟鼠标与键盘的自动化操作
需要注意的是,pyautogui库在 Windows、macOS 和 Linux 上都可以运行,但不同平台的热键或鼠标操作略有差异。在使用过程中,应根据具体平台的特点进行适当的调整。reference---使用Python实现鼠标与键盘自动化操作:从基础到实战应用Mac arch切换x86_64。
2025-12-18 12:37:01
996
原创 能控制计算机桌面的多模态AI agent
随着llm的能力越来越强,基于LLM的多模态AI agent框架和桌面工具越来越接近实用。这里收集这些开源的ai agent框架和桌面助手工具。
2025-12-17 16:34:31
707
原创 如何用Elo+Pearson优化偏差消除模型
这里尝试通过结合Elo+Pearson优化,降低不同主体的评估偏差假设一个模型,需要对多个主体(例如不同的人、不同的设备等)进行评分,但由于不同主体之间存在差异,直接评分可能会有偏差。这里使用Elo系统来动态调整每个主体的评分,并使用Pearson损失来训练模型,使得模型的评分与真实表现之间的相关性更强。
2025-12-17 00:24:45
918
原创 如何用DSPy优化chromadb向量检索的RAG系统
之前探索了如何用DSPy优化RAG prompt。这里首先设定带向量检索的RAG系统,然后通过DSPy优化基于retriever的RAG检索功能。所用测试例和代码修改自网络资料。
2025-12-14 10:22:33
698
原创 如何用DSPy优化RAG prompt示例
首先是LLM模型设置,这里配置LLM模型ollama/gemma3n:e2b,示例代码如下。# 1. 配置语言模型 (这里以OpenAI为例,需提前设置API密钥)然后是定义检索器,这里构建模拟知识库,通过计算查询词在文档中出现的次数在匹配相关文档。实际项目中,应该用真实向量数据库替代这里的基于频次的retriever文档匹配逻辑。示例代码如下所示。# ===== 2. 构建模拟知识库(实际项目中替换为真实向量数据库) ====="""一个简单的内存检索器,模拟向量数据库功能"""
2025-12-13 23:50:33
1019
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅