
大模型
文章平均质量分 89
大模型
THS_Allen
技术引领业务创新
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
开源词汇语料库项目(Gensim)详细介绍
Gensim(Generating Similarities)是专注于 无监督主题建模 的开源 Python 库,旨在从非结构化文本中自动提取语义主题,平衡 计算效率 与 开发者体验。其核心使命是为大规模文本处理提供轻量级解决方案,尤其擅长处理网络级语料库(如维基百科、新闻档案)。原创 2025-08-04 12:57:35 · 415 阅读 · 0 评论 -
开源词汇语料库项目(vocabulary-corpus)详细介绍
vocabulary-corpus 通过工程化手段解决了词汇数据的结构化、批量化处理问题,其技术路径介于传统词典编纂(如 Oxford English Dictionary)与现代 NLP 工具(如 Gensim)之间,为语言教育及技术应用提供了不可替代的基础设施。原创 2025-08-04 12:46:15 · 290 阅读 · 0 评论 -
语料全生命周期管理开源工具
摘要:本文分类整理了满足语料全生命周期管理的开源工具。1)语料获取与清洗工具Ungoliant和corpusZh支持多语言数据爬取与结构化处理;2)语料加工工具opencorpora和HanLP提供标注与分析功能;3)语料治理工具vocabulary-corpus和Coze Loop实现质量评估与优化;4)全流程平台JESEME支持历时语义分析。文章对比了各工具的核心优势与适用场景,并给出学术研究、工业处理等场景的选型建议,所有工具均支持Docker部署。(144字)原创 2025-08-04 12:33:52 · 847 阅读 · 0 评论 -
字节Coze Loop 核心代码硬核拆解,逐个模块解析
Coze Loop 核心架构解析:字节跳动智能体管理引擎 摘要: Coze Loop 采用五层异构架构管理AI智能体全生命周期,包含感知层(百万级事件采集)、执行层(多模型路由)、决策层(质量评估)等核心模块。系统关键技术包括:1)无锁环形缓冲区实现高效数据采集;2)基于EWMA算法的动态模型路由(支持时延/成本/质量策略);3)Git式Prompt版本管理结合向量相似检索;4)熔断机制保障系统稳定性。创新点在于指数加权移动平均预测、动态成本优化和语义级Prompt差异分析,支持亿级智能体的工业级管理需求。原创 2025-08-02 11:32:55 · 824 阅读 · 0 评论 -
Coze Loop的系统架构、技术架构和部署架构解析
摘要: 字节跳动开源的Coze Loop平台采用五层异构架构(感知-执行-决策-监控-进化),实现AI智能体全生命周期管理。技术栈基于Go+React,支持多模型路由、智能评估矩阵和全链路追踪,具备微秒级响应和PB级日志处理能力。支持云原生轻量化部署,已落地金融、教育、工业场景,在10万并发下保持800ms响应。未来将聚焦推理成本优化和硬件加速,践行"观测驱动进化"理念。原创 2025-08-02 11:23:15 · 661 阅读 · 0 评论 -
Agent 框架协议“三部曲”:MCP、A2A、AG-UI
本文介绍了AI Agent框架中的三大核心交互协议:MCP(模型上下文协议)、A2A(Agent间通信协议)和AG-UI(智能体用户交互协议)。MCP标准化了Agent与外部工具的交互方式,支持多模型统一调用;A2A实现Agent间的任务协作与能力共享;AG-UI规范了Agent与前端应用的实时交互流程。三大协议分别解决工具集成、多Agent协作和用户交互的标准化问题,共同构建了完整的AI应用系统基础设施。当前MCP已获主流厂商支持并形成丰富生态,A2A在多Agent系统领域持续探索,AG-UI则为开发者提原创 2025-08-01 12:43:49 · 1020 阅读 · 0 评论 -
AI Visualization(AG-UI):图表配置即服务
AG-UI协议正推动数据可视化进入"配置即服务"时代,其核心突破包括:1)事件驱动的架构设计,通过STATE_DELTA等协议实现90%网络负载优化;2)零代码图表生成能力,支持LLM直接输出结构化配置;3)多Agent协同的智能交互范式。典型应用如工业场景实现10分钟报表开发、金融风控秒级响应。该技术将静态图表升级为包含筛选、钻取等功能的交互式服务接口,2025年有望成为可视化服务化的爆发拐点。安全方面集成动态水印、零信任控制等企业级特性。原创 2025-08-01 12:41:38 · 958 阅读 · 0 评论 -
字节扣子Agent调度引擎解剖:万级并发下的毫秒级响应秘诀
摘要: 字节扣子(Coze)Agent调度引擎通过分层协同架构(负载均衡层-调度网关层-分布式调度器)与五大核心技术,实现万级并发下的毫秒级响应: RDMA零拷贝通信(跨节点时延0.8μs); 层级化状态管理(纳秒级热状态预加载); 流水线化并行执行(工作流时延降40%); PID实时扩缩容(秒级弹性伸缩); 向量化指令优化(AVX-512/GPU核融合)。 对比竞品,其单节点并发达12,000 QPS,平均延迟28ms,并通过轻量级Raft协议与请求对冲机制保障高可用。开源版本已释放同等能力。(148字)原创 2025-07-31 12:51:53 · 628 阅读 · 0 评论 -
字节扣子源码深度解剖
字节跳动开源项目Coze Studio采用Go+Python混合架构,通过进程隔离与零拷贝传输实现高性能文档处理,PDF解析支持多模态内容提取和表格重建。项目创新包括层级分块策略构建语义树、NL2SQL确定性输出及RRF融合排序算法,在合同检索等场景显著提升准确率。该项目提供标准化工具链和快速私有化部署方案,推动AI开发技术民主化。源码已开源,展示了工业级AI架构设计思路。原创 2025-07-31 12:46:42 · 989 阅读 · 0 评论 -
Cloud Native for AI:下一代AI基础设施架构深度解析
云原生AI:重构AI工程化范式 云原生技术正在重塑AI开发运维流程,预计2025年市场规模将超120亿美元。本文系统解析云原生AI的核心架构与关键技术: 解决传统AI四大痛点:资源利用率低(GPU利用率<30%)、数据模型协同断层、推理弹性不足(扩容延迟导致SLA下降)等 三层解耦架构: 计算层:GPU虚拟化+拓扑感知调度(通信效率提升35%) 数据层:Fluid加速缓存使训练迭代速度提升4倍 服务层:KServe实现智能流量治理(P99延迟降低66%) 行业实践:自动驾驶训练周期从14天缩短至3天,原创 2025-07-30 12:44:24 · 672 阅读 · 0 评论 -
字节跳动将“扣子”(Coze)开源,一石激起千层
字节扣子开源,本质是 “用开放换生态,用工具锁场景” 。当个人开发者在笔记本跑通企业级Agent时,当山西数据中心绿电驱动万亿级推理时,这场技术平权运动已按下加速键。未来三年,AI竞争将从模型参数转向工具链渗透率——谁定义开发体验,谁就掌握生态主权。原创 2025-07-30 12:38:25 · 1004 阅读 · 0 评论 -
OmAgent的跨设备协同中枢-iLink协议
摘要: OmAgent的iLink协议通过统一语义抽象层与分布式调度引擎,实现异构智能终端(如无人机、机械臂)的高效协同,支持200+设备即插即用,降低80%接入成本。其技术亮点包括多模态数据同步、动态任务分配及国密级安全通信,已在巡检、电力等场景实现响应速度提升300%。相比传统方案(如ROS),iLink将设备集成时间从3周缩短至1小时,延迟降至50ms,并计划向轻量化与元宇宙场景延伸,成为物理世界的“神经中枢”。原创 2025-07-28 13:12:42 · 978 阅读 · 0 评论 -
EdgeOne Pages MCP
EdgeOne Pages MCP的本质是“将自然语言编译为边缘服务”,通过协议标准化与全球加速网络,解决传统开发的四大断层:环境配置→编码→测试→部署。原创 2025-07-28 13:06:14 · 1324 阅读 · 0 评论 -
具身智能体(Embodied Agent)介绍
具身智能体(Embodied Agent)是AI领域的前沿方向,通过物理或虚拟载体与环境交互,实现感知-决策-行动的闭环。其核心在于将AI从数字空间延伸至物理世界,结合多模态感知和实时反馈完成复杂任务。技术架构包含感知层(视觉语言空间模型)、决策层(世界模型+LLM协同)和行动层(端到端控制),在工业、矿山、服务等领域已有成功应用。当前面临数据稀缺、多模态融合等挑战,未来将向智能体联邦网络、认知架构进化等方向发展。2025年WAIC展示的成果表明,该技术正从实验室迈向规模化应用,有望突破传统AI的认知局限。原创 2025-07-28 12:55:47 · 799 阅读 · 0 评论 -
AI时代PaaS层的模式创新-智能体即服务(Agent as a Service, AaaS)
用“技术-模式-价值”三层结构回应比较清晰:先说明智能体封装、编排引擎等技术支撑,再解释零代码/订阅制等商业模式创新,最后用可量化的行业价值收尾。避免重复之前案例,补充些新数据比如“某保险智能体理赔处理时间从3天缩短至4小时”会更直观。原创 2025-07-25 12:46:38 · 780 阅读 · 0 评论 -
DataFlow-安装 pymupdf失败
摘要:安装pymupdf时因网络超时导致MuPDF源码下载失败,可通过手动下载并指定路径、使用Conda安装、配置代理或升级工具解决。若遇防火墙限制,需检查网络设置或更换DNS。最终通过import fitz验证安装成功,若问题持续可联系依赖库维护者。(149字)原创 2025-07-24 16:30:06 · 282 阅读 · 0 评论 -
HTTP轮询(包括短轮询与长轮询)迁移到SSE(Server-Sent Events)流式推送比对
SSE(Server-Sent Events)相比HTTP轮询(短轮询/长轮询)在实时通信中具有显著优势:毫秒级延迟、资源消耗降低40%+、自动重连机制。技术实现需改造后端为SSE服务端点,前端适配EventSource,并配置代理支持长连接。SSE适用于股票行情等单向数据流场景,而WebSocket更适合双向交互。关键区别在于SSE为服务器推送、低延迟且开发简单,但仅支持文本数据且IE不兼容。迁移SSE可大幅提升实时性并降低服务器负载。原创 2025-07-22 12:32:52 · 849 阅读 · 0 评论 -
AI Native设计原则
AI Native 设计理念是构建系统时以人工智能为核心驱动力,从底层架构到上层应用全栈适配AI特性的方法论。原创 2025-07-22 12:27:03 · 904 阅读 · 0 评论 -
AI Native 设计理念
I Native设计理念通过深度集成AI技术,实现了系统的智能化、自适应性和持续优化,为各行业数字化转型提供了核心支撑。其成功关键在于遵循AI优先、数据驱动、敏捷开发等原则,并结合云原生架构与多模态技术,以应对未来挑战并推动创新。企业需根据自身需求选择AI Native或AI First策略,逐步构建以AI为核心的智能系统。原创 2025-07-21 22:22:40 · 625 阅读 · 0 评论 -
阿里云开源的云原生AI网关Higress AI
阿里云开源的Higress AI网关是一款云原生API网关,专为AI场景优化设计。基于Envoy内核构建,支持主流AI模型协议,提供智能流量治理、安全管控和成本优化能力。核心功能包括Token级限流、多模型动态路由、语义缓存等,显著降低带宽和Token消耗。典型应用场景包括统一AI模型网关、企业AI中台和Kubernetes入口,已成功应用于零一万物等企业案例。Higress通过Wasm插件生态支持扩展开发,未来将深化AI编程和边缘协同能力,实现高性能、低成本的AI服务治理。原创 2025-07-21 22:09:34 · 1058 阅读 · 0 评论 -
开源深度学习优化框架DeepSpeed使用指南
DeepSpeed 是由微软开发的开源深度学习优化框架,专为超大规模模型训练与推理设计,通过显存优化、并行策略和通信加速等核心技术,显著提升训练效率并降低资源消耗。以下从核心架构、实践指南到最佳实践进行全面解析原创 2025-07-19 13:19:28 · 1347 阅读 · 0 评论 -
网络智能体(Web Agent)通义WebSailor
摘要: 阿里巴巴通义实验室开源WebSailor网络智能体,突破复杂信息检索任务的技术瓶颈。其核心创新包括: 三级任务体系(基础检索→多跳推理→跨域关联)和数据模糊化技术,提升模型应对不确定性的能力; DUPO强化学习算法动态优化训练,推理效率提升3倍; 开源标杆性能:BrowseComp-en准确率12%(开源首次破10%),中文任务接近闭源领先水平。 应用覆盖模糊查询、企业获客、科研辅助等场景,7B模型可部署消费级GPU。开源1月获GitHub 5000+⭐,推动智能体研发转向数据驱动范式。 开源地址:原创 2025-07-19 12:53:59 · 1277 阅读 · 0 评论 -
DeepSpeed + Megatron-LM 组合方案的深度解析
本文深度解析了DeepSpeed与Megatron-LM的组合方案,重点探讨了其在千亿级模型训练中的核心价值、技术实现和性能优势。该组合通过DeepSpeed的显存优化和Megatron-LM的计算效率提升,实现了1+1>2的效果,支持高达10万亿参数的模型训练。文章详细介绍了架构流程、关键配置代码、通信优化技术,并提供了实测性能对比(如175B模型训练显存降低至38GB)。同时给出了部署指南和国产化适配方案(如昇腾910B优化实践),最后总结了适用场景与调优建议,为大规模模型训练提供了高效解决方案。原创 2025-07-19 12:50:30 · 625 阅读 · 0 评论 -
开源深度学习优化框架DeepSpeed详解
DeepSpeed是微软推出的开源深度学习优化框架,通过ZeRO显存优化和3D并行策略(数据/流水线/张量并行)实现超大规模模型高效训练,支持万亿参数模型训练和单卡13B模型部署。其核心技术包括ZeRO分阶段优化(显存降低至1/8)、Offload卸载至CPU/NVMe、混合精度训练等,在GPT-3等大模型训练中可降低40%成本。相比Megatron-LM和FSDP,DeepSpeed在显存优化和规模扩展上更优,但配置较复杂。适用于金融风控、生物医药等行业的大模型训练与推理场景。原创 2025-07-18 12:48:25 · 918 阅读 · 0 评论 -
MoE 稀疏推理详解
摘要(148字): MoE稀疏推理通过动态激活Top-K专家模块(如Mixtral 8x7B仅激活2/8专家),将70B级模型计算量降至稠密模型1/6,显存占用减少50%-70%。关键优势包括:吞吐提升3倍(如100+ tokens/s)、能效降低60%、支持千亿参数模型部署。主流方案结合vLLM/SGLang框架与FP8量化,在H100上实现>500 tokens/s,边缘设备(如Jetson Orin)可运行20B模型。优化技术涵盖负载均衡、专家并行通信及动态批处理,使MoE模型在1/4计算量下达原创 2025-07-18 12:44:34 · 618 阅读 · 0 评论 -
AI时代新基建:大模型管理平台及PaaS服务
大模型管理平台&PaaS 在金融行业原创 2025-07-17 15:24:47 · 970 阅读 · 0 评论 -
大模型工具对比:SGLang, Ollama, VLLM, LLaMA.cpp
本文对比分析了四款主流大模型推理框架。SGLang v0.4通过零开销批处理等技术实现最高1.9倍性能提升,适合企业级高并发场景。Ollama基于llama.cpp开发,提供1700+模型支持,安装简单适合个人开发者。VLLM采用PagedAttention技术,多GPU性能优异但仅支持Linux。LLaMA.cpp支持多级量化,在边缘设备表现突出。各框架在性能、易用性、适用场景等方面各具优势,用户可根据计算资源、应用需求选择合适方案。原创 2025-07-17 12:36:46 · 868 阅读 · 0 评论 -
SGLang 高性能大语言模型(LLM)推理框架
摘要: SGLang是由LMSYS Org开发的高性能大语言模型推理框架,通过软硬件协同设计优化推理效率与控制灵活性。其核心架构采用分层优化,包括高效后端运行时系统(RadixAttention技术、CPU调度器等)、灵活前端DSL语言和广泛模型兼容性。关键技术突破涵盖Prefill-Decode分离架构、多Token预测与推测解码、极致量化优化等。性能测试显示其吞吐量较vLLM提升5倍,延迟降低60%+,支持千亿级模型的高效部署。应用场景覆盖金融风控、复杂Agent工作流等,生态系统兼容PyTorch并计原创 2025-07-17 12:30:18 · 1238 阅读 · 0 评论 -
Kimi K2(月之暗面 Moonshot AI )强势来袭
Kimi K2 全面解析:开源大模型的突破与落地 Moonshot AI推出的 Kimi K2 采用 万亿MoE稀疏架构(推理仅激活32B参数),搭配自研 MuonClip优化器 实现稳定训练,支持128K长文本与工具调用。性能上,在编程(SWE-Bench 65.8%)、数学(Math-500 97.4%)和Agent任务(TAU2 70.6%)超越GPT-4.1等闭源模型。其 API成本仅为竞品1/5(输出¥16/百万Token),支持 单卡A100部署,并通过Groq平台实现152 TPS高速推理。应原创 2025-07-17 12:24:57 · 1431 阅读 · 0 评论 -
CANN(Compute Architecture for Neural Networks)详细介绍
摘要:国产昇腾910B AI芯片采用7nm EUV制程,集成32个达芬奇核心,FP16算力达376 TFLOPS,超越英伟达A100。搭载64GB HBM2e显存,支持8卡并行,能效比提升40%。应用覆盖自动驾驶(性能提升2倍)、大模型推理(Qwen-72B吞吐>3500 tokens/s)及工业质检(精度99.5%)。软件生态支持PyTorch/TensorFlow迁移,国产化适配率超60%。相比英伟达H20,性价比高40%,但千亿级训练能力稍弱。未来昇腾910D将集成HBM3,算力再提升50%,加速国产原创 2025-07-16 12:54:13 · 1114 阅读 · 0 评论 -
英伟达H20与L20两款GPU详细对比
摘要: 英伟达H20与L20 GPU对比分析(2025年数据)显示,H20凭借96GB HBM3显存、4TB/s带宽及NVLink支持,在千亿级模型训练和高并发生成场景性能领先,但成本高昂(八卡月租120万元)。L20则以高FP32算力、低功耗和性价比(年租2.88万元)更适合中小模型、边缘计算及预算敏感项目。关键差异包括H20首Token延迟较高,L20显存容量受限。趋势显示国产芯片可能冲击高端市场,企业需根据规模(H20适合日均百万请求,L20适配20B以下模型)和预算选型。原创 2025-07-16 12:27:22 · 2293 阅读 · 0 评论 -
DeepSeek-R1 的“满血版”和“量化版”到底有啥差异
DeepSeek-R1 模型分为"满血版"和"量化版"两个版本,核心差异显著。满血版(R1-671B)采用完整6710亿参数和MoE架构,在复杂推理任务中表现接近GPT-4,但部署需要1.2TB显存和多卡A100/H100集群,硬件成本约250-300万元。量化版通过精度压缩(如1.73-bit/4-bit)大幅降低资源需求,如4-bit量化后7B模型仅需4.2GB显存,可在RTX 3060单卡运行。部署建议:企业级应用选择满血版+专业集群;普通用户推荐Ollama一原创 2025-07-15 12:29:52 · 1929 阅读 · 0 评论 -
精度压缩技术(如 FP16 → INT4)
深度学习模型的精度压缩技术(如FP16→INT4)通过降低参数和激活值的比特宽度,显著减少存储与计算资源消耗。主流方法包括训练后量化(PTQ)和量化感知训练(QAT),工具如TensorRT、GPTQ和AWQ实现高效压缩。INT4量化可节省87.5%显存并加速4-6倍,但不同任务精度损失差异较大(分类任务2-5%,生成任务5-15%)。实践需根据硬件选择方案(如A100支持INT4,边缘设备用INT8),并保护敏感层。前沿技术如1.58-bit的BitNet和2-bit的QLoRA进一步突破极限,但需平衡精原创 2025-07-15 12:26:27 · 1111 阅读 · 0 评论 -
量子语义框架(DisCoCat++)介绍
DisCoCat++是融合量子力学与语言学的语义计算框架,通过量子态编码词汇语义(如"银行"=金融态+河流态),利用张量积和幺正算子实现动态组合。其核心技术包括语境感知坍缩、非经典关联矩阵和硬件优化,解决了传统NLP的多义词消歧、长文本建模等痛点。实测显示在搜索引擎、工业诊断等场景性能提升显著,如广告转化率提高41%。该框架实现了语义理解的量子范式转变,从静态词向量升级为动态交互式认知模型。开发者可通过Python工具包快速接入,需注意用户数据隐私保护。原创 2025-07-15 12:24:00 · 609 阅读 · 0 评论 -
量子语义学
量子语义学原创 2025-07-15 12:21:49 · 785 阅读 · 0 评论 -
Emergent Symbolic Mechanisms(涌现符号机制)
普林斯顿团队在ICML 2025提出"涌现符号机制"理论,揭示大型语言模型(LLM)内部自发形成的符号处理架构如何支撑抽象推理能力。研究通过分析Llama3-70B等模型,发现三类协同工作的符号化组件:符号抽象头(将输入转化为抽象变量)、符号归纳头(进行规则推理)和检索头(映射回具体输出)。该机制在数学、逻辑和长程推理任务中带来61.4%的性能提升,并成功应用于自动定理证明、法律分析和科学假设生成等场景。虽然存在领域迁移和复杂规则处理等挑战,但该理论为LLM实现可靠、高效的强人工智能提供原创 2025-07-14 12:29:48 · 1016 阅读 · 0 评论 -
Memory and Reasoning Synergy(记忆与推理协同) 技术深度解析
新加坡-MIT联合团队2025年6月提出的 Memory and Reasoning Synergy(记忆与推理协同) 技术的深度解析,涵盖核心原理、技术实现、性能优势及行业应用场景:原创 2025-07-14 12:27:49 · 1064 阅读 · 0 评论 -
Cognitive Tools(认知工具,结构化提示模板)技术介绍及使用场景说明
摘要:IBM苏黎世研究院2025年提出的Cognitive Tools技术,基于认知心理学ACT-R理论,构建了包括问题理解、知识检索、答案检查和回溯四大模块的推理框架。通过结构化提示和模块化协作流程,该技术在数学推理(AIME 2024测试准确率提升61%-127%)、法律审查(4分钟识别高风险条款)和医疗诊断(F1分数达0.89)等场景表现优异。其核心创新在于隔离上下文窗口和动态路径优化,无需额外训练即可逼近顶级推理模型性能。未来将向多模态和量子语义学扩展,推动AI从“统计鹦鹉”向“推理伙伴”进化。原创 2025-07-14 12:25:18 · 1158 阅读 · 0 评论 -
KenLM 高效 n-gram 语言模型库介绍及使用
KenLM 是一个高效开源 n-gram 语言模型库,提供 Python 接口 kenlm,广泛应用于 NLP 任务。支持源码编译(需 Boost 库)和 Python 安装,可加载二进制或文本模型。核心功能包括整句评分、细粒度得分分析和状态流评分,适用于文本纠错、语言模型训练等场景。通过比较候选句子的概率分数实现智能纠错(如 a/an 替换),并支持高阶 N-gram 和状态复用优化性能。最佳实践建议使用二进制模型加速加载,英文 2-gram、中文 3-gram 以上效果更佳。KenLM 以高效评分和灵活原创 2025-07-11 12:39:15 · 1020 阅读 · 0 评论 -
英伟达H20与L20两款GPU的核心性能对比
英伟达H20与L20 GPU深度对比分析(2025版) H20采用Hopper架构,配备96GB HBM3显存和4TB/s带宽,支持NVLink多卡互联,适合千亿级大模型训练与高并发推理,但成本较高(八卡月租约120万元)。L20基于Ada Lovelace架构,提供更高FP32算力(59.8 TFLOPS)和更低功耗(275W),年租成本仅H20的1/35,是中小规模模型与边缘部署的经济选择。实测显示,H20在长文本生成吞吐量上领先63%,但L20首Token延迟更低。选型需权衡性能需求与预算:企业级超算原创 2025-07-10 12:28:32 · 3493 阅读 · 0 评论