AIGC
文章平均质量分 76
hzp666
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
0-1大模型简介
本文介绍了从零构建小型LLM(类似GPT2)的实现过程。主要内容包括:1. Tokenizer部分:详细讲解BPE分词算法原理,比较字符级、词级和子词级分词方案的优劣;2. 模型核心组件:包括嵌入层(解决数字无语义问题)、位置编码(处理词序)、注意力机制(建立词间关系)和Transformer结构;3. 训练方法:通过预测下一个词的任务让模型学习语言模式,并介绍了SFT微调方法;4. 生成策略:解释温度和top-k采样对输出多样性的影响。文章旨在通过手写实现帮助开发者理解LLM底层原理,打破对黑盒模型的恐惧原创 2025-12-26 16:42:48 · 575 阅读 · 0 评论 -
新兴存储全景与未来架构走向
报告的核心结论是,未来没有一种“万能”的存储技术。AI计算系统将依赖于DRAM、NAND与多种新兴存储技术(如HBM, CXL, PIM, SOM/MRAM等)的“组合创新”,通过架构层面的深度融合来满足不同场景对性能、能效和成本的要求。为了支撑更强大的AI,计算、内存和存储必须进行系统性的协同革新。如果你对其中某一种具体的技术(比如HBM是如何工作的,或者PIM如何实现“存内计算”)特别感兴趣,我们可以深入探讨。或者,你也可以分享更具体的场景,我们可以一起分析哪种技术组合可能成为关键。原创 2025-12-23 17:41:25 · 867 阅读 · 0 评论 -
NeurIPS 2025 会议上核心技术
本文综述了NeurIPS2025会议上7项通用深度学习模型结构优化工作,聚焦于在不损失模型效果的前提下降低计算成本和参数存储开销。主要优化方向包括:1)GatedAttention通过门控机制过滤无效信息;2)MGLU利用参数共享压缩GLU激活函数的参数量;3)Multi-head Temporal Latent Attention在时间维度压缩KV Cache;4)SeerAttention通过池化和蒸馏提升长序列计算效率;5)EUGens设计新型MLP结构减少计算量;6)SparkAttention利用原创 2025-12-23 17:37:01 · 601 阅读 · 0 评论 -
Gemini 3 Flash打破了“参数越大越智能”的行业常规认知
谷歌发布突破性轻量级大模型Gemini3Flash,其参数规模仅为Pro版本的1/5-1/10,却在多项复杂任务上反超Pro版本。核心突破在于创新的Titans架构,通过神经记忆机制实现:1)测试时动态学习,将重要信息存入长期记忆;2)基于"惊奇度"指标选择性记忆关键内容;3)线性复杂度处理百万级上下文,在OpenAI MRCR测试中达到90%准确率。该模型以0.5美元/百万token的低成本,实现了超越参数规模的智能表现,标志着AI发展从"堆参数"转向架构创新。原创 2025-12-23 17:29:41 · 598 阅读 · 0 评论 -
基于大语言模型(LLM)的多智能体应用的新型服务框架——Tokencake
Tokencake是首个以KV Cache 为中心、专为LLM 多智能体应用设计的服务框架。通过智能体感知的空间分区与预测驱动的时间卸载/加载机制,有效解决了多智能体场景下的资源争用与缓存闲置问题,在真实负载下显著优于现有系统。原文:大型语言模型(LLM)正越来越多地应用于需要外部函数调用的复杂多智能体场景中。这类工作负载给KV Cache带来了严峻的性能挑战:空间竞争会导致关键智能体的缓存被驱逐,而时间利用率低下使得运行工具调用等待期间,停滞的智能体缓存长时间闲置于GPU内存中。针对上述挑战,原创 2025-11-04 16:33:23 · 1165 阅读 · 0 评论 -
DepCache:面向GraphRAG的依赖注意力与KV Cache管理框架
摘要:针对GraphRAG系统存在的冗余计算和缓存复用效率低问题,研究者提出DepCache优化框架。通过依赖注意力机制(仅计算相关实体间的注意力)和图结构感知的KVCache复用策略,配合创新的LACR缓存替换算法,在Llama3等模型上实现:首Token延迟降低1.5-3.2倍,吞吐率提升1.5-5倍,缓存命中率提高6.7%-10.1%,同时保持生成质量。实验验证了结构感知微调和图KV复用的关键作用,为知识密集型LLM应用提供了高效推理方案。(149字)原创 2025-11-04 13:37:26 · 777 阅读 · 0 评论 -
Claude 新推出的AI 技术Skills
Claude Skills是一种模块化能力包,包含详细说明文档、脚本模板和资源文件,可让AI高效执行特定专业任务(如文档处理、数据分析)。其核心优势在于可组合性、可移植性和高效性,能提升40%效率并减少35%错误。与MCP(主要连接外部系统)不同,Skills更专注于工具处理,两者可互补使用。官方已开源12个Skills,用户可通过简单命令安装使用。Skills通过预封装标准化流程,避免了传统方式中反复生成代码的环节,实现"一键式"高效输出。原创 2025-10-24 16:42:54 · 1136 阅读 · 0 评论 -
Magnus:面向大规模机器学习工作负载的综合数据管理方法
Magnus是一个专为大规模机器学习工作负载设计的创新数据管理系统。针对传统数据湖表格式在存储效率、元数据管理和更新性能等方面的不足,Magnus提出了多项优化方案:1)自主研发Krypton列式格式和Blob多模态格式,显著提升存储和读取效率;2)通过消除冗余统计信息和构建索引优化元数据管理,使解析效率比Iceberg快5-26倍;3)支持轻量级的列级更新和主键Upsert机制;4)针对LLM和LRM等大模型训练场景,采用双表设计和分片机制进行优化。实验表明,Magnus在存储空间、读写性能和训练效率上均原创 2025-10-17 15:33:44 · 1122 阅读 · 0 评论 -
RAG优化:基于现代 SSD 的向量数据库性能优化总结
本文针对基于磁盘的向量数据库在AI应用中的I/O瓶颈问题,提出三项优化pgvector的核心技术:1)采用io_uring实现并行I/O,充分挖掘SSD并发性,查询QPS提升8.55倍;2)空间感知插入重排序提升缓存命中率,增量场景下保持74.35%命中率;3)局部性保留共置优化存储布局,使100M数据集缓存命中率仍提高2.7倍。实验表明,优化后的系统在真实数据集上实现查询吞吐量最高提升11.1倍,索引构建时间减少98.4%,且支持动态更新,性能超越DiskANN等静态系统,为RAG等实时AI应用提供了高效原创 2025-10-17 15:05:53 · 997 阅读 · 0 评论 -
大模型LoRA微调笔记
本文简要介绍了微调过程的关键环节。研究使用魔搭社区提供的免费GPU资源进行模型训练,充分利用了该平台的计算资源。同时,详细说明了训练数据的来源和应用方式,展现了完整的数据使用流程。这些技术要素共同构成了模型微调的基础条件,为后续优化工作提供了必要支持。通过合理配置这些资源,确保了微调过程的顺利进行。原创 2025-09-28 17:38:24 · 309 阅读 · 0 评论 -
LoRa炼丹微调
摘要:LoRa训练中,学习率的设置需根据图片复杂度调整。简单图片使用较低学习率(如9e-6),避免过拟合;复杂图片则需提高学习率(如1e-5)以获得更好的训练效果。这一策略有助于平衡模型的学习能力与泛化性能。原创 2025-09-26 17:11:03 · 215 阅读 · 0 评论 -
利用CPU部署大模型
文章摘要: 本文针对中小企业预算有限的情况,提出了一种在CPU服务器上实现低成本AI推荐的技术方案。通过模型量化(压缩模型体积)、Ollama(简化CPU推理)和Redis缓存(避免重复计算)三大关键技术,将月度成本从1.8万元降至600元。虽然CPU方案的延迟(800-1200ms)和并发(8-12次/秒)低于GPU方案,但通过缓存优化,完全适用于非实时的中小规模场景。该方案证明了在资源受限时,工程师可通过技术组合实现降本增效,特别适合业务初期的中小团队验证AI可行性。原创 2025-09-26 16:05:30 · 819 阅读 · 0 评论 -
利用大模型来做时间序列的预测
本文介绍了时间序列分析中的关键技术:1)Transformer架构及其改进版Informer,通过特征提取解决长尾问题;2)TimesNet将一维时序数据转换为二维;3)傅里叶变换分解影响因素并量化重要性。重点阐述了利用大模型实现文本域到时间域的映射方法:通过全连接层将时间片段(如缓慢下降、平缓上升)与文本patch绑定,使大模型适应时序分析。该方法结合了1D-2D转换、卷积特征提取等技术,为时序数据处理提供了新思路。原创 2025-09-23 17:32:29 · 325 阅读 · 0 评论 -
3D 大模型生成虚拟世界
斯坦福教授李飞飞创业公司WorldLabs发布空间智能模型Marble测试版,支持通过单张图片或文本生成持久可导航的3D世界。该模型能创建大规模、风格多样的3D环境,支持自由视角探索和场景拼接,并可将生成的高斯点云导出用于下游项目。相比同类产品,Marble强调永久存在性和免费使用特性,目前已开放白名单申请。原创 2025-09-17 15:58:13 · 1162 阅读 · 0 评论 -
Google 新 LLM 仅需 0.5GB 内存即可运行——如何在本地对其进行微调
几天前,Google 悄然发布了一款小型 AI 模型,名为 Gemma 3 270M。它体型极小,甚至能在配置极低的设备上运行。当然,也不是真的能在“土豆”(指完全无法使用的设备)上运行,但它仅需约 0.5GB 内存。这……基本上相当于没占多少内存。显然,我忍不住想找个有趣的方向对它进行微调,于是选择了国际象棋这个主题。我的目标是:给它一个接近结束的国际象棋棋局,问它“缺失的走法是什么?”,看看它能否准确给出答案。全程离线进行。不需要云端 GPU,也不会产生让我心疼的信用卡账单。原创 2025-09-17 15:28:44 · 297 阅读 · 0 评论 -
关于MCP Agent的一些优化
摘要:本文针对多智能体协作调度中React模式的应用问题进行了深入分析。在生产环境中,层级指挥模式作为主流方案虽能提升任务完成质量,但仍存在响应延迟、上下文冗余、规划缺陷等性能瓶颈。作者提出五项优化措施:采用流式XML替代FunctionCall提升工具调用效率;实施上下文压缩策略;引入万能Agent兜底机制;优化任务总结输出;建立规划监督机制。实践表明,这些工程优化可有效弥补模型能力不足,但长期来看,采用更先进的基础模型(如Claud)可能更具成本效益。文章为多智能体系统设计提供了有价值的实践参考。原创 2025-09-17 14:59:58 · 692 阅读 · 0 评论 -
非结构化数据处理LangExtract
LangExtract是一个基于Python的结构化信息提取工具库,利用大型语言模型(LLM)处理非结构化文本。核心功能包括: 采用插件式架构,支持多种LLM后端(如Gemini、OpenAI等) 提供精确的源文本定位和结构化输出 支持并行处理和可视化分析 通过入口点机制实现扩展性 系统特点: 智能文本分块和模糊匹配 提供程序特定的模式约束 架构分层设计,确保模块独立性 支持社区插件集成 主要接口包括提取函数lx.extract()和可视化工具lx.visualize(),适用于临床记录、报告等文本处理场景原创 2025-09-09 09:49:39 · 609 阅读 · 0 评论 -
playwright 不仅用于爬虫,还可测试自动化
本文介绍了Playwright MCP与Cursor IDE的集成应用,提供了一套完整的无代码自动化测试解决方案。核心内容包括:1)技术优势,通过AI将自然语言指令转化为测试代码;2)5步搭建流程,从环境配置到执行测试;3)高阶应用场景,如电商流程测试、API+UI混合验证等;4)8大效率技巧,包括快照模式和智能等待;5)常见问题解决方案。该组合将测试代码编写时间从小时级压缩至分钟级,使非技术人员也能参与测试设计,显著提升自动化测试效率。原创 2025-08-15 09:49:33 · 847 阅读 · 0 评论 -
Playwright MCP 在测试自动化应用
《PlaywrightMCP+Cursor完全指南》摘要:该工具组合通过PlaywrightMCP标准化协议和CursorIDE的AI编程助手,实现自然语言驱动的自动化测试。核心优势包括无代码操作、多浏览器兼容、自适应页面变化等功能。配置流程分为5步:安装Cursor、配置Node环境、集成MCP、启动服务器和执行AI指令。支持电商测试、表单自动化、API+UI混合验证等场景,提供8大效率技巧如快照模式和智能等待。常见问题解决方案涵盖启动失败、验证码处理等。最终实现将测试开发从小时级压缩至分钟级,降低技术门原创 2025-08-15 09:47:40 · 530 阅读 · 0 评论 -
GPG加密算法简介
要了解什么是GPG,就要先了解。转载 2025-07-21 10:10:02 · 171 阅读 · 0 评论 -
AI培训学习4-产品项目落地
原创 2025-07-17 16:30:56 · 177 阅读 · 0 评论 -
AI培训学习3-AI数据分析产品
摘要: Workspace ChatExcel 2.0支持多角色报表生成,3.0版本进一步整合上下游业务数据,通过时政热点、关键时间节点(如政策窗口期)及神策数据模板进行深度分析。其价值在于:1) 角色适配性,定制化报表满足不同岗位需求;2) 业务协同,串联上下游数据提升决策效率;3) 动态分析,结合时政与时间敏感数据(如经济指标)揭示业务波动原因。例如,利用神策模板分析政策发布前后的用户行为变化,可快速定位外部因素对业务的影响。原创 2025-07-17 16:09:18 · 218 阅读 · 0 评论 -
AI培训学习2
不要打扰用户的习惯,比如APP右下角的我的,放到第一个就不合适。Product market 平衡。codebody 小程序发展。coze 和dify 工作流。lovable 网页网站的生成。码上飞 IT产品设计。如何花钱,1分钱买东西。uizard 草图转变。原创 2025-07-17 15:40:10 · 171 阅读 · 0 评论 -
AI演化培训1
Claude 可以生成 PPT思维图表等 淘宝又共享账号。Gemini 修改图片具体部分。硅基流动,可以微调模型。原创 2025-07-17 13:30:16 · 364 阅读 · 0 评论 -
mcp学习4-chury studio + MCP配置
本文介绍了如何配置ChuryStudio并使用MCP服务。首先下载安装软件后,需配置大模型并获取免费token。接着在MCP广场选择所需服务,复制连接JSON到ChuryStudio完成配置。常见MCP功能包括:SequentialMCP(AI思考规划)、FetchMCP(网页抓取)、NotionMCP(语音笔记)、Zapier(行程规划)、百度MCP(旅行规划)、MiniMaxMCP(音视频生成)、FigmaMCP(网站设计)和BlenderMCP(3D建模)等。配置完成后,选择MCP服务器即可开始使用各原创 2025-07-15 10:07:30 · 449 阅读 · 0 评论 -
RAG优化
摘要:RAG本地AI知识库存在三大痛点:内容理解不足(如向量编码截断)、信息提取偏差(检索准确性依赖向量编码)和综合分析能力有限(缺乏深度推理)。进阶方案包括:引入重排序模型优化信息提取、采用MCPServer增强数据处理、使用超大上下文模型提升理解能力。相关资源可通过CherryStudio、硅基流动及PostGreSQLMCP等工具获取。(149字)原创 2025-07-14 17:24:37 · 281 阅读 · 0 评论 -
langgraph学习3 - demo
LangGraph是一个基于状态流转的流程图框架,核心包含四个概念:状态(state)作为数据载体,节点(node)作为处理单元,边(edge)连接节点,以及图(graph)组织流程。其执行逻辑为初始状态输入后,按节点和边的定义顺序处理并更新状态,直至终止。文中展示了两种实现案例:基础流程演示了状态传递和处理过程;条件分支案例则通过条件函数动态选择执行路径。两个案例都遵循定义状态、创建节点、构建边、编译运行的开发模式,体现了LangGraph灵活构建流程的能力,特别是通过条件边实现分支逻辑的特性。原创 2025-07-04 11:02:50 · 1071 阅读 · 0 评论 -
LLM之KV缓存优化方案--分块驱逐及PruLong
陈丹琦团队针对大语言模型长文本处理中的KV缓存内存占用瓶颈提出创新解决方案。研究引入"KV足迹"作为统一评估标准,综合考虑内存占用和时间维度,并提出两项关键技术:1)分块驱逐技术,在预填充阶段即时丢弃不重要KV条目,使峰值内存降低8倍;2)PruLong训练方法,通过自然文本端到端训练实现注意力头专业化分工。实验显示,在128K长文本任务中最高可降低70%内存占用,性能损失仅10%。该研究为长上下文模型的高效推理提供了系统化解决方案,并揭示了不同技术在召回、RAG等任务中的适用性差异。原创 2025-06-30 13:53:54 · 1050 阅读 · 0 评论 -
langgraph学习2 - MCP编程
Fast Mcp V2 ,(V1捐给MCP 官方)MCP skd 官方。原创 2025-06-29 16:51:26 · 173 阅读 · 0 评论 -
TeRM(Trie-based RDMA Memory) 技术解决使用SSD扩展RDMA内存时的性能瓶颈
《TeRM:一种高效扩展RDMA内存的软件解决方案》 针对RDMA-Attached Memory扩展时ODPMR机制导致的性能瓶颈(SSD页面访问延迟达570μs,比内存慢290倍),本文提出TeRM系统。通过三大创新:1)魔法页机制将硬件缺页转移至用户态处理;2)分层I/O调度动态选择缓存/SSD路径;3)协同热点管理自动提升高频数据。实验显示,在Octopus文件系统中,TeRM比ODPMR快642倍,吞吐量达全内存方案的96.7%,且支持>100GB扩展。该方案已开源,适用于未修改的RDMA存原创 2025-06-23 15:08:54 · 1072 阅读 · 0 评论 -
卡内基梅隆大学(CMU)贾志豪发布大模型新型编译器MPK
CMU团队推出MPK编译器,通过将LLM推理转化为单一巨型内核,显著降低延迟。核心创新包括:1)消除内核启动开销;2)实现跨层流水线;3)重叠计算与通信。在A100GPU上测试Qwen3-8B模型,将延迟从14.5ms降至12.5ms。MPK由编译器(生成细粒度任务图)和运行时(分布式调度)组成,仅需数十行Python代码即可实现高性能推理,无需CUDA编程。未来将支持Blackwell架构、MoE模型和高级调度策略。开源地址:https://github.com/mirage-project/mirage原创 2025-06-23 14:58:56 · 913 阅读 · 0 评论 -
2025珠海CCF YEF青年精英大会-存储
KV Cache 相关资料:原创 2025-05-22 14:54:54 · 194 阅读 · 0 评论 -
Manus--干实事的智能体来了
在用于评估通用 AI 助手在解决现实世界问题方面的能力的 GAIA 基准测试中,Manus 在所有三个难度级别上都达到了 SOTA 水平。除了基准测试,Manus 还在 Upwork 和 Fiverr 等平台上解决真实世界的问题,并在 Kaggle 竞赛中证明了自己的实力。面对这类复杂任务,Manus 同样是有条不紊地将其拆解为多个步骤,并创建详细的待办清单。比如帮你从一堆简历中筛选,并排序候选人,并输出报告。帮你根据现实世界的情况,帮你筛选合适的房子。基于预算,在房地产网站上筛选合适的房源。原创 2025-03-06 14:45:55 · 652 阅读 · 0 评论 -
局域网内配置 Ollama 服务以实现远程访问
现在有越来越多的开源模型,可以让你在自己的电脑或服务器上运行。使用本地模型有许多优势:●完全离线运行,保护隐私数据安全●无需支付在线 API 费用●完全离线,服务稳定,无网络延迟●可以自由调整和定制模型参数Ollama 是一个开源的基于Go语言的本地大语言模型运行框架,专门为本地电脑上部署和运行大模型而生的,类似于Docker,可以方便地下载和运行各种开源模型,比如、Llama、Qwen 等。这个工具支持 Windows、MacOS、Linux 等操作系统。转载 2025-03-04 19:05:54 · 2002 阅读 · 0 评论 -
Linux搭建个人大模型RAG-(ollama+deepseek+anythingLLM)
安装可以非常简单,一行命令完事。(有没有GPU,都没有关系,自动下载合适的版本)cd 到合适的文件目录下载安装一键安装文件赋权执行自动下载&安装ps:这里下载可能会很感人,所以有人说可以替换ollama下载为github下载:v0.5.7但是我发现我这里还是用ollama快一点安装完成后。原创 2025-03-03 17:14:25 · 798 阅读 · 0 评论
分享