- 博客(258)
- 资源 (3)
- 收藏
- 关注
原创 deepseek的流形约束超连接mHC
本文提出mHC(Manifold-Constrained Hyper-Connections),一种基于流形约束的超连接优化方法。该方法通过将高维数据嵌入低维流形,利用几何特性约束神经网络连接结构,提升模型泛化能力和计算效率。核心原理包括流形约束(采用拉普拉斯矩阵等方法)和超连接优化(动态调整权重)。
2026-01-09 18:32:21
266
原创 嫁接模型能力 TransMLA
TransMLA是一个创新框架,能够将基于GQA的预训练模型(如LLaMA、Qwen、Mixtral)无缝转换为基于MLA的模型。该技术通过高效转换架构,为现有大语言模型提供了新的优化路径。项目已在GitHub开源,相关论文发布于arXiv平台。TransMLA简化了模型转换流程,为研究人员和开发者提供了便捷的工具,有望推动大模型技术的进一步发展与应用创新。
2026-01-05 15:49:53
620
原创 休闲--假期归来
行李箱合上的声响,将散落的假期收束成记忆琥珀。远方的风与山海沉淀在身体里,化作书页间的落叶、窗台上的贝壳。 重返忙碌时,那些松弛的瞬间成为生活的透气孔。我们带着旅痕归来,发现日常亦可珍藏——停驻过远方的人,更懂如何与眼前的光阴相处。
2026-01-04 15:58:29
165
原创 为什么大模型会出现幻觉
大模型幻觉指AI生成与事实不符的内容,主要由训练数据偏差、概率驱动机制和缺乏实时知识更新导致。模型通过统计概率生成文本,可能产生看似合理但错误的输出。
2025-12-26 23:55:38
149
1
原创 辅助生成视频片段
本文推荐了多款视频片段生成工具和技术方案。专业软件方面介绍了Adobe Premiere Pro、Final Cut Pro和DaVinci Resolve等主流编辑软件;自动化工具推荐了AI视频生成和云端协作平台;同时提供了素材整合技巧、移动端解决方案(如剪映、LumaFusion)以及优化工作流的实用建议,涵盖从专业制作到快速生成的多种需求场景。
2025-12-26 21:26:54
389
原创 烦心之烦心
雨声、书香与星空中的心灵治愈 摘要:当生活陷入混乱时,不妨在雨天静听自然乐章,让雨声沉淀思绪。翻开尘封的书籍,伴着清茶细品文字,让音乐与雨声交织成宁静空间。仰望星空感悟宇宙浩瀚,通过写作释放内心压力。
2025-12-24 23:24:39
109
原创 什么是智能问数
智能问数是基于AI技术的数据查询分析工具,通过自然语言交互帮助用户快速获取和处理数据。其关键技术包括自然语言处理、数据建模、查询生成和结果可视化,能够将用户提问转化为可执行查询并生成图表或结构化答案。相比传统BI工具,智能问数具有交互自然、学习成本低和响应快速等优势,广泛应用于商业智能、金融风控和医疗研究等领域。
2025-12-23 18:38:05
363
原创 大模型微调--QLoRA
QLoRA是一种高效的大模型微调技术,通过量化(4-bit/8-bit)和低秩适配(LoRA)相结合,显著降低显存占用和计算成本。其核心包括分块量化权重矩阵和添加可训练的低秩矩阵(ΔW=BA)。实现时需配置量化参数(如BitsAndBytesConfig)和LoRA层(如秩r=8),在Hugging Face生态中可便捷部署。QLoRA能在7B模型上将显存需求从14GB降至6GB,同时保持接近全参数微调的性能,适用于资源受限场景,但需注意量化精度损失和硬件兼容性。
2025-12-23 14:48:43
902
原创 AIGC如何实用--测试
AIGC发展经历了从解决具体问题的实用主义阶段向高阶应用的演进。初期聚焦文本摘要等明确任务,随着技术进步拓展至创意生成、个性化推荐等领域。深度学习等技术突破推动了内容质量和多样性的提升,应用场景扩展到娱乐、教育等多领域。
2025-12-22 20:49:13
217
原创 BLIP-2 调用示例
本文介绍了BLIP-2多模态模型的使用方法,包含示例代码和关键参数说明。首先需安装torch、transformers等库,然后通过处理器和模型加载图像并生成文本描述。支持视觉问答功能,可通过文本提示实现交互。注意事项包括显存需求较高(建议16GB以上GPU),并可通过max_length参数控制输出长度。
2025-12-22 19:49:31
322
原创 大模型OCR
DeepSeek-OCR是一款基于深度学习的多场景文本识别工具,通过融合SAM的图像分割能力和CLIP的语义理解技术,实现高效OCR处理。提供Python API支持图像/PDF处理,适用于文档数字化、自动化办公等场景。
2025-12-22 19:46:49
1087
原创 graphrag简介
GraphRAG是一种基于知识图谱的检索增强生成技术,通过图结构(节点为实体,边为关系)提升大语言模型在复杂推理任务中的表现。其核心流程包括:1)从文本构建知识图谱;2)通过图检索动态获取多跳关联信息;3)结合子图上下文生成回答。相比传统RAG,GraphRAG优势在于关系感知、动态上下文整合及强可解释性,适用于医疗、金融等需深度推理的场景。技术挑战包括图谱构建成本高和实时更新问题,未来可探索混合检索(图结构+关键词)优化。
2025-12-21 23:06:07
363
原创 大模型微调--MoELora
本文提出MOELoRA框架,将混合专家系统(MOE)与低秩自适应(LoRA)相结合,实现大语言模型在多任务医学应用中的高效微调。MOELoRA通过动态路由机制分配任务给不同的专家模块,每个专家内部采用LoRA技术进行参数高效的微调。该方法既保留了预训练模型的知识,又通过共享基础模型参数减少了冗余。
2025-12-21 21:57:41
281
原创 大模型高效微调--P-Tuning v2
P-Tuning v2是清华大学提出的高效参数微调方法,通过连续提示优化和分层提示注入提升大模型性能。相比传统微调,它仅需调整0.1%-1%的参数,在输入层和中间层注入可训练提示向量,大幅降低计算开销。核心代码展示了PrefixEncoder模块如何生成分层提示,以及如何将这些提示集成到BERT模型中。
2025-12-20 23:02:42
677
原创 deepseek-r1 解题思路复现解析
本文解析GRPO(Group Relative Policy Optimization)算法,这是一种改进型强化学习技术,专为提升大语言模型的推理能力设计。该算法在DeepSeekMath等实验中展现出显著性能提升。
2025-12-19 23:42:37
861
原创 FlashAttention与PageAttention的区别
FlashAttention和PageAttention是两种优化Transformer注意力机制的方法,主要区别在于设计目标和适用场景。FlashAttention通过减少GPU内存访问来加速计算,适用于常规长度序列(≤8k),训练时可提速2-4倍。PageAttention则针对长序列设计,采用分页管理KV缓存,支持百万级上下文,适合超长文本生成等场景。前者优化计算效率,后者解决显存不足问题。
2025-12-18 23:56:03
687
1
原创 LoFA 图像秒级适配好搭档
LoFA提出一种两阶段学习机制,通过生成低维响应图谱作为先验知识,再引导生成LoRA权重,实现视觉生成模型的快速个性化适配。该方法利用交叉注意力动态融合用户指令与基础权重,相比直接预测LoRA权重,显著提升了训练效率(计算负担降低)、稳定性(中间监督缓解梯度噪声)和可解释性(可视化响应图谱)。
2025-12-18 19:06:01
1038
1
原创 KTO: Kahneman-Tversky优化
KTO(Kahneman-Tversky Optimization)是一种基于前景理论的强化学习方法,通过量化人类决策中的损失厌恶效应,实现单样本标注下的高效优化。其损失函数包含收益项和损失项,后者采用更陡峭的惩罚曲线以反映人类对负面结果的规避倾向。相比传统偏好学习,KTO无需构建偏好对,数据效率提升显著,标注成本可降低40%以上。
2025-12-17 23:42:50
960
原创 EverMemOS 带着记忆检索
EverMemOS是一个创新的AI记忆操作系统,其核心特性包括语义化记忆理解和个性化交互优化。系统通过时序模型和注意力机制实现两层处理架构,在LoCoMo测试中达到92.3%的准确率,显著优于传统被动检索模式。
2025-12-16 20:09:22
240
原创 Multi-Agent与LangGraph框架 简介篇
Multi-Agent系统(MAS)通过多个自治智能体的协作完成复杂任务,具备自治性、交互性和分布式特性。LangGraph框架基于有向无环图(DAG)模型,支持智能体工作流的可视化编排,核心组件包括节点、边和全局状态。实现MAS需明确智能体角色(如任务分解、执行、协调),并通过工具函数(如天气API查询)与工作流定义具体功能。
2025-12-16 20:08:42
289
原创 RRF--Reciprocal Rank Fusion融合排序
Reciprocal Rank Fusion (RRF) 是一种融合多排序列表的算法,通过排名倒数加权求和优化最终排序。其公式为对每个文档在各列表的排名取倒数(加常数c平滑),无需归一化且高排名优先。适用于多模型检索、跨领域排序及推荐系统。Python实现示例展示了如何合并异构排序列表,需注意常数c的选择及缺失项处理。RRF侧重排名相对位置,对噪声具有鲁棒性。
2025-12-16 17:03:36
841
原创 MoE负载均衡策略
MoE负载均衡策略通过门控机制实现专家网络的动态分配,核心方法包括基于Softmax的软分配、Top-K专家选择和负载均衡损失函数。工程优化涉及分布式计算支持和动态路由改进,评估指标涵盖专家利用率、计算吞吐量和任务性能。典型应用如Switch Transformer和GShard,该策略能有效提升大规模模型的训练效率与性能。(149字)
2025-12-15 23:59:19
377
原创 dualpipe 核心解决策略
DualPipe是一种并行处理架构,通过两条独立通道协同工作提升效率。其核心优化包括:均衡资源分配、降低管道间依赖、实现高效同步机制、独立错误处理以及实时性能监控。关键技术涉及负载均衡、异步通信、无锁数据结构、容错设计和动态调优,适用于数据处理、网络通信等多线程场景,确保系统高性能与稳定性。
2025-12-15 23:56:51
154
原创 大模型微调--MAM Adapter (Mix-and-Match Adapters)微调
Mix-and-Match Adapters是一种模块化的参数高效微调技术,通过动态组合不同功能模块(如领域知识、任务特定模块)来提升预训练模型的灵活性。相比全模型微调和传统适配器,它具有更高的参数效率(仅需微调0.5%-5%参数)和模块化程度,适用于多任务/跨领域场景。
2025-12-15 23:55:28
221
原创 大模型微调--Dora微调
DoRA是一种高效的大模型微调方法,通过权重分解(幅度+方向)结合低秩适配技术,显著减少训练参数量。它将原始权重分解为幅度标量和归一化方向矩阵,仅对方向部分应用低秩更新(LoRA)。相比全参数微调,DoRA可减少90%以上参数,同时保持模型性能,在NLP任务中表现优异。实现上通过冻结原始权重,仅训练幅度参数和低秩矩阵,支持灵活应用于Transformer各层。
2025-12-15 23:51:37
923
原创 sglang 大模型推理框架支持的EAGLE 1,2,3
EAGLE系列模型通过草稿机制优化大语言模型推理效率。基础版本采用特征预测生成候选token,以树状结构扩展;EAGLE-2引入动态分支评估和重排序机制;EAGLE-3整合多层特征并采用on-policy训练。核心参数控制分支数量(speculative_eagle_topk)和候选token数(speculative_num_draft_tokens)。代码实现包含注意力掩码处理、特征拼接和梯度检查点等关键模块,通过隐藏状态拼接提升表示能力。
2025-12-14 15:12:08
401
原创 投机采样 Speculative Decoding -- EAGLE
EAGLE是一种通过特征层面回归预测提升采样效率和准确性的投机采样技术。该方法结合轻量级Draft模型(如Gemma-2b)和性能更强的Target模型(如Llama-2-7b),在生成阶段先由Draft模型预测多个候选token,再由Target模型验证这些token的合理性。验证时通过计算候选token的概率分布,仅保留高于阈值的token,对未达标部分重新采样。代码示例展示了完整的投机采样流程:包括初始化双模型、Draft阶段生成候选、Verify阶段概率验证以及最终文本生成。
2025-12-14 14:15:28
1315
原创 Multi-token Prediction
本文探讨了多令牌预测(Multi-token Prediction)技术在大型语言模型中的应用与优化。传统自回归模型逐令牌生成的局限性促使了能同时预测多个未来令牌的新方法出现,其核心通过扩展损失函数实现并行预测(如公式展示)。研究重点分析了两种创新架构:EAGLE采用单模块递归生成保持连贯性,FastMTP则通过共享权重模块和自蒸馏训练提升效率。源码解析揭示了关键实现技术,如张量滚动操作和层级归一化设计。这些方法在代码生成等场景中展现出2-3倍的加速效果,同时通过内存优化适配现有框架。
2025-12-14 13:48:12
756
原创 dpo详细解析
DPO是一种直接优化人类偏好的强化学习算法,用于微调预训练语言模型。它基于Bradley-Terry偏好模型,将强化学习目标转化为监督学习的损失函数,通过对比优选和劣选响应的概率差异来优化模型。相比PPO等传统方法,DPO省去了奖励建模步骤,训练更高效。主要应用于对话系统、内容生成等场景,通过三元组偏好数据直接优化模型输出。
2025-12-13 23:59:23
668
原创 什么叫范式
摘要:范式指学科内广泛接受的理论框架或方法论,在不同领域有不同含义。计算机科学中包括面向对象、函数式等编程范式;科学哲学中由库恩提出,描述科学共同体的理论体系(如牛顿力学到相对论);语言学关注词语形态变化,社会学则指研究社会的理论框架(如功能主义)。范式具有共识性、指导性和阶段性,既提供统一标准也可能限制创新。
2025-12-13 23:57:26
271
原创 torch 操作函数
torch.multinomial 根据概率分布进行随机采样,常用于强化学习等场景。torch.gather 根据索引从张量中收集元素,适用于动态索引提取数据。两者分别实现概率采样和索引收集功能,前者输出采样索引,后者输出收集的元素。示例代码展示了基本用法,multinomial 可指定采样数量和是否重复采样,gather 需指定维度和索引张量。
2025-12-13 23:57:01
181
原创 华为Nexus架构超越传统Transformer性能
论文《Nexus: Higher-Order Attention Mechanisms in Transformers》提出了一种改进Transformer自注意力机制的方法——Nexus架构。该架构通过引入内部注意力循环动态生成Query和Key,取代传统静态线性投影,从而建模高阶关系(如间接关联)。其核心创新包括: 权重共享:复用标准注意力的投影矩阵(Wq/Wk/Wv),不增加参数量; 递归框架:支持堆叠内部循环以捕捉更高阶语义; 即插即用:可直接替换现有Transformer模块
2025-12-13 23:55:52
1231
原创 AlphaEdit 基于无损编辑的新范式
本文介绍了线性代数中零空间的概念及其应用。零空间指满足齐次线性方程组 (A\mathbf{x} = \mathbf{0}) 的所有解向量组成的子空间,具有加法和数乘封闭性。通过秩-零化度定理 (\text{rank}(A) + \text{nullity}(A) = n) 可分析矩阵性质。零空间在解线性方程组、矩阵可逆性判断及工程领域有重要应用。此外,文章还提出了AlphaEdit方法,利用SVD分解计算知识保留的零空间投影矩阵,通过约束参数更新方向避免破坏原有知识。
2025-12-13 23:43:25
1161
git安装说明.txt
2025-10-31
【计算机视觉】基于YOLOv11的目标检测模型:猫狗识别系统从训练到部署的全流程设计与应用拓展
2025-10-29
【工业通信协议】PROFINET与EtherCAT实时性能对比:高精度运动控制场景下的数据效率与同步性优化方案
2025-10-29
数值计算基于Cholesky分解的正定矩阵处理:Python实现与线性方程组求解应用
2025-10-28
C++200例详细的介绍了C++语言的用法
2009-08-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅