- 博客(612)
- 资源 (3)
- 收藏
- 关注
原创 深入剖析Kubernetes调度与GPU调度技术实现原理
本文深入解析Kubernetes调度器与GPU调度技术。Kubernetes调度器采用插件化架构,通过过滤、评分、绑定三阶段为Pod选择最优节点,v1.19引入的调度框架将流程分解为多个扩展点。针对GPU资源,Kubernetes通过设备插件机制管理,支持异构GPU集群和细粒度共享调度。文章还探讨了拓扑感知、负载感知等高级调度策略,以及通过QueueingHint优化调度性能。未来GPU调度将向硬件隔离、AI驱动等方向发展,持续提升资源利用率。调度技术正从基础分配向智能化演进,为云原生应用提供更高效的资源管
2025-11-24 11:12:06
819
原创 Label Studio 数据标注平台,大模型预训练与微调必备
摘要:LabelStudio是一款开源数据标注工具,支持文本、图像等多种数据类型的标注。本文介绍了其安装方法(通过conda创建环境并pip安装)、基础使用流程(创建项目、导入数据、设置标签、标注导出)以及AI自动标注功能的实现。重点讲解了如何通过MLBackend集成LangChain模型实现自动标注:创建自定义模型类、构建预测链、处理返回结果,最后配置到LabelStudio项目中。该功能可显著提升标注效率,标注人员只需在AI预测结果基础上进行修正。
2025-11-24 10:29:44
16
原创 Neo4j 图数据库(Graph Database),“大模型 + 知识图谱”
Cypher 是 Neo4j 图数据库专用的查询语言,其语法直观清晰,设计风格与 SQL 类似,专门用于高效处理图数据。它通过高度可读的声明式语法,简化了图数据的创建、查询、更新与删除(CRUD)操作,尤其擅长表达复杂的图模式匹配。除了基础操作,Cypher 还支持子查询、聚合计算、条件过滤以及集合操作等高级功能,是图数据库领域最核心的查询工具之一。在图数据库中,为了保持数据的一致性和完整性,我们可以为图中的节点或关系设置约束条件(Constraint)。属性唯一性约束属性存在约束(社区版不支持)
2025-11-24 10:26:20
14
原创 K8S资源池化技术实现原理
K8S资源池化技术实现原理摘要 Kubernetes资源池化技术通过抽象异构资源为统一逻辑池,实现动态分配与高效利用。其核心架构分为控制平面(API Server、Scheduler、Controller Manager、etcd)和数据平面(Kubelet、Kube-proxy、容器运行时)。关键技术包括:1)资源抽象建模,将CPU/内存/GPU等转化为可分配单元;2)智能调度系统,通过预选-优选算法实现最优资源分配;3)Device Plugin机制管理特殊硬件资源。该技术解决了传统架构资源碎片化问题,
2025-11-21 14:33:16
241
1
原创 深度剖析“停止模型推理”技术方案,从此不惧灵魂拷问
本文探讨了生成式AI模型在生产环境中提前停止推理的必要性与实现方法。文章首先分析了停止推理的四大需求场景:资源节约、响应提速、业务规则满足和质量控制。随后详细介绍了基础停止机制(如EOS标记)、API设计策略(隐式/显式/高级控制)以及流式传输中的优化技巧。针对判别式任务,文章提出了级联模型和自适应深度网络两种早停方案。最后通过内容审核系统的案例,展示了如何通过分层架构实现高效停止逻辑。全文强调在模型服务中平衡效率与效果的工程思维,为AI系统优化提供了实用指导。
2025-11-21 13:57:07
961
原创 多模态模型面试完全指南:从原理到工程的深度解析
多模态模型面试指南 多模态模型能够处理和关联多种数据类型,实现跨模态语义理解和生成。本文从基础概念、核心架构到工程实践,全面解析多模态模型的25+高频面试问题。 基础概念: 多模态模型通过信息互补提升理解完整性,增强鲁棒性和交互自然性 与单模态学习相比,多模态模型采用跨模态编码器和融合机制,实现联合表示学习 核心架构: CLIP模型采用双编码器架构,通过对比学习对齐图像和文本特征空间 多模态融合策略包括早期融合(输入层融合)、晚期融合(决策层融合)和混合融合 工程实践: 模态对齐、数据异构性和计算效率是多模
2025-11-20 15:03:01
527
原创 RAG系统面试完全指南:从架构到优化的深度解析
RAG系统面试指南摘要 RAG(检索增强生成)技术已成为连接大模型与现实知识的关键桥梁。本文系统解析RAG系统架构与优化策略,涵盖基础概念、架构设计和核心算法三个维度: 基础概念:剖析RAG的本质特征、完整工作流程及与传统方法(微调、提示工程)的对比优势; 架构设计:详解生产级RAG系统的分层架构(数据层/检索层/生成层/服务层)、高可用设计和技术选型考量; 算法优化:从检索、重排序到生成环节的30+优化策略,包括混合检索、动态上下文管理等关键技术。 本文提供完整的面试解决方案,帮助候选人系统掌握RAG领域
2025-11-20 14:39:28
737
原创 RAG重排序面试完全指南:从原理到工程的深度解析
RAG重排序技术解析 摘要 RAG(Retrieval-Augmented Generation)系统中的重排序是提升检索质量的关键技术,它通过复杂模型对初步检索结果进行优化排序。本文从三个方面解析重排序技术: 基础概念:重排序不同于初步检索,它使用更复杂模型对少量候选文档进行精确排序,解决语义鸿沟、词汇不匹配等问题,提升Top-K结果质量。 算法原理:详细介绍了交叉编码器的工作原理及其实现代码,比较了点式、对式和列式三种排序方法的优劣,并解释了LambdaMART算法的数学原理。 工程实现:讨论了重排序系
2025-11-19 17:26:22
983
原创 混合检索在RAG系统中的面试完全指南:从融合策略到工程实践
混合检索在RAG系统中的关键技术与面试要点 混合检索通过融合多种检索方法显著提升RAG系统的性能,其核心优势在于: 融合策略: 早期融合:查询预处理阶段合并不同检索方法 中期融合:中间结果重排序 晚期融合:最终结果合并与去重 技术实现: 分数归一化确保不同检索方法结果可比性 动态权重调整优化系统性能 缓存与索引优化提升响应速度 面试要点: 理解各种融合策略的优缺点 掌握分数归一化等关键技术 了解性能优化和系统设计考量 混合检索已成为现代RAG系统的标配技术,面试中需展示对其原理和工程实践的深入理解。
2025-11-19 17:19:56
747
原创 向量存储在RAG系统中的面试完全指南:从原理到优化的深度解析
本文深入解析RAG系统中向量存储的核心技术与面试要点。第一部分阐述向量存储的基础概念及其在RAG系统中的三大核心作用:知识编码、相似度检索和语义理解。第二部分详细分析主流向量索引算法,包括HNSW的分层导航图原理及其高召回率优势,IVF-PQ的乘积量化技术及其内存高效特性,并比较两者适用场景。第三部分探讨生产级向量存储的系统架构设计,涵盖分布式、高可用等关键考量。全文通过代码示例和对比表格,系统性地呈现了向量存储从算法原理到工程实践的完整知识体系,为相关技术面试提供全面指导。
2025-11-19 16:27:10
606
原创 RLHF面试完全指南:从基础到前沿的深度解析
RLHF面试精要解析:从基础到核心算法 本文摘要总结了RLHF(基于人类反馈的强化学习)的核心概念与技术要点。RLHF通过三阶段流程解决大模型对齐问题:1)监督微调学习指令跟随能力;2)奖励模型训练学习人类偏好;3)PPO算法优化策略。关键创新点在于使用比较数据而非绝对评分训练奖励模型,结合KL散度惩罚防止过度优化。数学基础包括Bradley-Terry偏好模型和PPO目标函数,其中KL惩罚项兼具防止模式坍塌和保持生成质量的作用。RLHF相比传统强化学习更注重价值观对齐而非单纯任务完成,相比监督学习能更好处
2025-11-18 14:59:35
721
原创 模型微调(SFT)面试完全指南:从基础到前沿的深度解析
监督微调(SFT)面试指南精要 监督微调(SFT)是使通用大模型适应特定任务的关键技术,在面试中常被考察。本文概述了SFT的核心要点: 基础概念: SFT位于预训练与RLHF之间,使用标注数据调整模型 相比预训练,SFT数据量小、学习率低、目标特定 与提示学习相比,SFT更新模型参数而非仅调整提示 技术原理: 目标函数基于最大似然估计 需防止灾难性遗忘,采用小学习率、正则化等策略 学习率调度策略需根据数据规模调整 数据工程: 数据质量需保证准确、多样、一致 格式化处理要统一,添加适当标记 评估指标包括多样性
2025-11-18 14:51:18
766
原创 大模型应用安全及解读
大模型技术快速发展,在带来广泛应用前景的同时也面临数据安全、隐私保护、内容合规等严峻挑战。国家出台《生成式人工智能服务安全基本要求》,从语料来源、模型生成、安全措施等方面提出规范要求。OWASP组织发布大模型TOP10安全风险清单,警示潜在攻击方式。网宿科技基于实践经验,从数据安全、模型流转、内容合规等维度构建评估方案,旨在提升大模型安全性,促进行业健康发展。通过技术研发和监管完善,平衡创新发展与风险防范,确保大模型安全可靠地服务社会。
2025-11-18 14:37:52
1533
原创 模型部署面试完全指南:从理论到实践的深度解析
模型部署面试指南摘要 本文系统梳理了模型部署的知识体系,涵盖基础概念到实战技巧。主要内容包括: 基础概念:模型部署的核心挑战与流程,训练与推理阶段的关键区别 模型优化:量化、剪枝等性能优化技术,ONNX格式作用和模型编译器原理 推理引擎:深度解析TensorRT、OpenVINO等工具的核心优化原理 服务化架构:高可用设计、版本管理与热更新等生产级实践方案 性能调优:延迟优化、吞吐提升和内存管理的具体技术手段 监控调试:生产环境稳定性保障的指标体系与优化方法 全文包含30+高频面试问题解析,帮助工程师系统掌
2025-11-17 16:21:26
693
原创 MCP面试完全指南:从原理到实践的全面解析
MCP(Model Context Protocol)作为连接大语言模型与外部工具的新兴标准协议,正成为AI工程师面试热点。摘要从基础概念、核心组件到实战应用全面解析MCP:1)定义标准化交互方式,提供安全、可扩展的工具集成框架;2)包含Client、Server和Transport三层架构;3)通过沙箱隔离、权限控制等保障安全性;4)支持动态工具注册和多样化工具类型;5)相比传统API集成具有开发效率、运维和安全优势,但也面临协议复杂性等挑战;6)未来将向多模态支持、工具编排等方向发展。本文为开发者提供面
2025-11-17 15:56:04
884
原创 RAG面试完全指南:从原理到优化的28个高频问题解析
RAG面试高频问题解析:从基础到优化的全面指南 本文系统梳理了RAG(检索增强生成)技术的28个高频面试问题,涵盖基础认知、常见问题、优化策略和未来发展方向。文章首先解析RAG的核心原理及其相比SFT的优势,随后深入探讨10大实践挑战及解决方案,包括内容缺失、文档排序、上下文整合等关键问题。在高级篇中,重点介绍了RAG-Fusion多通道检索机制和系统优化策略。最后展望RAG与知识图谱、智能代理等技术的融合趋势。整个指南以解决实际问题为导向,帮助面试者全面掌握RAG技术的核心要点和应用场景。
2025-11-17 15:51:02
986
原创 LightPROF:一种轻量级推理框架,用于大型语言模型在知识图谱上的应用(AAAI2025)
摘要:本研究针对大型语言模型在知识图谱推理中面临的效率低下和结构信息缺失问题,提出了轻量级提示学习框架LightPROF。该框架通过三步检索模块(语义提取、关系检索、推理图采样)实现精准信息获取,利用知识适配器编码图结构和文本信息,并采用软硬提示结合的方式避免模型参数更新。实验表明,在WebQSP和CWQ数据集上,LightPROF使用7B参数的LLaMa模型即超越ChatGPT等大模型的性能,同时减少98%的输入标记和30%推理时间。该框架具有即插即用特性,能有效提升各类LLM在复杂知识图谱问答任务中的表
2025-11-14 13:46:26
1034
原创 从函数到神经网络速通大模型原理!
本文系统性地介绍了神经网络的基本原理及其发展历程。从最简单的线性函数开始,逐步阐述了如何通过激活函数构建非线性神经网络,并详细解释了前向传播、反向传播和梯度下降等核心概念。文章还探讨了过拟合问题及其解决方案,包括正则化和Dropout等技术。最后,重点讲解了Transformer架构及其核心的注意力机制,说明了大模型如何通过预测下一个词来实现各种应用。全文通过层层递进的方式,帮助读者深入理解神经网络和大模型的底层原理。
2025-11-14 13:43:43
862
原创 Agent的未来范式探索
摘要:本文系统梳理了当前AI Agent的技术发展现状与趋势。文章首先阐述了Agent的定义与能力分级(L0-L5),分析了不同模态(语言/视觉/混合)和应用场景(OS/GUI等)的Agent类型,并详细解读了五大核心架构模式(反射/工具/ReAct/规划/多智能体)。通过评测MetaGPT、Dify等主流开源项目,文章指出当前Agent主要处于流程编排阶段(L2),并深入探讨了Agent的规划模块设计(任务分解/多计划选择/反思细化等)。最后,文章分享了评测体系(CUP框架)和未来发展方向(生成式Agen
2025-11-13 12:57:12
805
原创 用户运营新逻辑:分层、触达与全链路转化
在数字化与互联网深度融合的今天,教育、企业服务、品牌营销、用户运营等领域正迎来新一轮转型与升级。从流量运营、品牌构建、技术支撑、用户体验、生态协同等多个维度,系统梳理了当前机构与企业在数字化转型过程中的核心逻辑与实践路径。内容覆盖从公域引流到私域沉淀、从产品设计到品牌心智、从数据赋能到组织协同,旨在为各类机构提供可落地、可迭代的成长方案。
2025-11-13 12:42:20
367
原创 RocketMQ for AI:企业级 AI 应用异步通信首选方案
摘要:随着AI应用快速发展,企业面临长耗时任务、高成本算力资源及流量波动等挑战。RocketMQ推出LiteTopic解决方案,支持百万级轻量Topic自动化管理,通过异步通信解决多Agent协作阻塞问题,保障会话连续性,并实现高效算力调度。该方案已在阿里云及多个AI产品中验证,显著提升资源利用率和系统稳定性。未来RocketMQ将持续优化AI场景支持,推动行业生态合作。(150字)
2025-11-13 12:38:32
776
原创 从Token推测LLM中文训练数据污染:技术深度解析与实践
通过Token分析推测LLM训练数据污染的技术,为我们打开了解析模型"黑盒"的新窗口。这项研究不仅揭示了当前主流LLM中普遍存在的数据污染问题,更重要的是提供了一套可操作、可验证的技术框架来量化评估这一问题。研究结果表明,GPT-4o等先进模型的中文训练数据中,特定类型的污染内容可能占到相当比例(如"波多野结衣"相关内容的0.5%),这一发现对LLM的安全部署和合规使用具有重要警示意义。
2025-11-12 14:01:56
1064
原创 服务器虚拟化与容器化:全面技术解析
服务器虚拟化与容器化是云计算的两大核心技术。服务器虚拟化通过Hypervisor创建完整隔离的虚拟机,每个VM包含独立的操作系统和虚拟硬件,适合强隔离场景但资源占用高。容器化则利用Linux内核特性实现轻量级进程隔离,共享宿主机OS内核,启动更快且资源占用低,适合微服务架构。两者各有优劣:虚拟化安全性强但性能开销大,容器化轻量高效但隔离性较弱。企业需根据应用需求选择合适技术或结合使用,如虚拟化运行容器平台。
2025-11-12 13:44:54
936
原创 “算力资源实例虚拟化”与“服务器虚拟化”
摘要: 服务器虚拟化与算力资源实例虚拟化的核心差异在于虚拟化对象与抽象层次。前者针对整台服务器(如CPU、内存等),通过Hypervisor创建隔离的虚拟机(VM),目标是资源整合与多租户管理(如VMware)。后者聚焦专用算力(如GPU/NPU),以设备级分割(如NVIDIA MIG)或硬件虚拟化(如SR-IOV)实现精细化共享,支持容器化部署,提升资源利用率与多租户隔离。两者可协同使用:服务器虚拟化提供基础环境,算力实例虚拟化通过池化技术(如MIG)实现云原生动态分配,满足AI等高算力场景的灵活需求。
2025-11-11 21:29:04
705
原创 Kubernetes如何纳管和调度GPU资源
本文详细解析了Kubernetes中GPU资源的管理技术方案。主要内容包括:通过设备插件机制实现GPU识别与纳管,利用节点标签、污点容忍等策略进行精细调度,以及采用虚拟化技术提升GPU利用率。文章对比了整卡调度与共享调度的差异,介绍了MPS、显存虚拟化和硬件虚拟化三种共享方案。最后探讨了生产实践中的多租户管理和监控方案,并展望了动态资源分配等前沿技术趋势。为在Kubernetes集群中高效使用GPU资源提供了从基础到高级的完整技术指导。
2025-11-11 17:01:39
1084
原创 运维可视化实现方案
本文系统介绍运维可视化的核心技术体系和典型产品方案。运维可视化通过数据采集、处理分析和可视化呈现三个关键环节实现IT系统的透明化管理,其中涉及ETL处理、机器学习算法和交互式仪表盘等技术。文章对比了FineReport、Bonree ONE等主流产品的特点与适用场景,并从需求匹配、数据整合、智能分析等维度提供选型建议。运维可视化的核心价值在于提升效率、辅助决策和赋能业务,能将故障响应时间从小时级降至分钟级,并为资源规划提供数据支撑。文中还列举了金融等行业应用案例,说明可视化技术如何实现从被动运维到主动管理的
2025-11-11 16:47:22
815
原创 深入解析 Kubernetes 调度器:核心机制与实践优化
本文深入解析了Kubernetes调度器的核心机制与优化实践。调度器通过预选(Filtering)和优选(Scoring)两阶段策略,基于资源匹配、亲和性等条件为Pod选择最佳Node。Kubernetes 1.15+的调度器框架支持插件化扩展,开发者可自定义过滤和评分逻辑。文章还探讨了高级调度场景如拓扑分布约束、动态资源分配,并提供了调度性能优化方案和问题排查工具。随着云原生技术发展,调度器将更注重异构资源支持和实时性优化,为复杂业务场景提供灵活高效的调度能力。
2025-11-10 20:43:22
864
原创 Kubernetes调度器深度解析:从核心原理到实战应用
Kubernetes调度器深度解析:核心原理与实战应用 摘要:Kubernetes调度器(kube-scheduler)作为集群的"大脑",负责将Pod分配到合适的节点。本文深入剖析其核心架构,包括调度队列、缓存和插件化框架,详解两阶段调度流程(过滤与打分阶段),并介绍核心调度策略如资源需求调度、亲和性/反亲和性调度以及污点容忍机制。调度器通过公平、高效、灵活的调度算法,确保集群资源最优利用,同时支持自定义扩展以满足不同业务场景需求。
2025-11-10 13:48:58
832
原创 深入浅出Kubernetes调度器:从基础原理到扩展实战全解析
本文深入解析Kubernetes调度器的核心原理与扩展机制,包括调度流程(过滤、打分、绑定)、两种扩展方案(Scheduler Extender和Scheduler Framework)的对比选择,并以异构算力调度案例HAMI展示实践应用。关键要点:理解调度器工作流程,根据业务需求合理选择扩展方案(Extender适合快速验证,Framework适合高性能场景),参考HAMI实现资源调度优化。文章为Kubernetes集群资源管理提供了从基础到实战的完整指导。
2025-11-10 13:39:35
680
原创 《DeepSeek-OCR: Contexts Optical Compression》解读(THS)
DeepSeek-OCR代表的不仅仅是一个技术改进,而是处理长文本问题范式的根本转变:从 “在文本框架内优化” 到 “切换到视觉框架降维打击”从 “追求无限扩展上下文窗口” 到 “智能压缩保留核心信息”从 “完美记忆” 到 “受控遗忘”这项技术为处理超长文档、多轮对话、知识库检索等场景开辟了全新的可能性。作为技术从业者,我们应该密切关注这个方向的发展,并思考如何将其应用到自己的项目中。
2025-11-08 11:17:26
610
1
原创 AI Agent深度研究:DeepResearch技术详解与DeerFlow架构解析(THS)
DeepResearch代表了AI Agent技术的重要演进方向,从简单的问答交互迈向深度的自主研究。通过多智能体协作、迭代式探索和结构化输出,AI正在成为人类在知识探索和研究工作中的强大伙伴。DeerFlow作为这一领域的优秀开源实现,为我们提供了宝贵的技术参考和实践范例。随着技术的不断成熟,我们有理由相信,DeepResearch将在学术研究、商业分析、政策制定等多个领域发挥越来越重要的作用。
2025-11-08 11:11:33
1137
原创 AI-APP整体技术方案
本文提出了一套现代化、可落地的AI应用技术方案,采用分层架构设计,重点关注成本控制与性能优化。方案包含前端层(推荐Next.js/React Native)、AI服务层(使用LiteLLM网关统一模型接口)、数据层(向量数据库+PostgreSQL)和基础设施(Docker+K8s)。核心特点包括:1)通过RAG实现AI长记忆功能;2)智能模型路由降低使用成本;3)完整的文档处理和向量化流程;4)多级缓存与用量监控机制。推荐采用FastAPI+Next.js+Qdrant的技术栈组合,既保证开发效率又具备生
2025-11-07 14:33:24
1034
原创 《生成式人工智能服务安全基本要求》(TC260-003)
《生成式人工智能服务安全基本要求》(GB/T 45654-2025)是我国首个针对生成式AI的国家安全标准,主要涵盖四大核心安全领域:语料安全要求来源合法合规(违法信息≤5%)且可追溯;模型安全需遵循备案制度并建立持续监测机制;安全措施包括场景适用性评估、投诉举报渠道等技术和管理要求;安全评估可采用自评或第三方评估。建议建设方案重点构建语料全周期管理体系、模型合规框架、运行防护措施及组织管理流程,将安全要求融入系统全生命周期。该标准为行业提供了可操作的安全基线,需特别关注数据溯源、意图识别等关键环节。
2025-11-07 13:31:35
748
原创 传统WAF网关实现原理及技术的详细解析
传统WAF(Web应用防火墙)是一种部署在Web应用前端的网络安全设备,通过深度分析HTTP/HTTPS流量来防护各类应用层攻击。其核心实现包括协议合规性检查、请求规范化、签名/规则匹配、异常检测和行为分析等多层安全检测引擎,能够有效识别SQL注入、XSS等常见威胁。WAF支持反向代理、透明桥接和旁路镜像等多种部署模式,但也面临SSL性能瓶颈、绕过风险及规则维护复杂等挑战。尽管存在局限性,WAF仍是Web安全防御体系的关键组件,并正朝着智能化、云原生化方向演进。
2025-11-06 21:42:07
817
原创 NVLink协议及其衍生技术(NVSwitch, NVLink-C2C)的核心技术
**摘要:**NVIDIA的NVLink技术通过点对点直连架构解决了GPU间通信的PCIe瓶颈,提供高带宽低延迟的数据传输。NVSwitch进一步实现多GPU全互联无阻塞交换,支持大规模并行计算。而NVLink-C2C则将互联层级提升至芯片级,为Chiplet异构集成提供高密度互连方案。三者共同构建了从芯片到系统的完整高速互联生态,支撑AI大模型和E级计算需求。该技术体系通过统一内存、缓存一致性和交换网络设计,显著提升了多GPU系统的计算效率和扩展性。(148字)
2025-11-06 13:25:19
794
原创 一文读懂NVLink
摘要: NVLink是英伟达研发的高速互联技术,旨在解决多GPU及GPU-CPU间的通信瓶颈。其通过点对点直连协议(如NVLink 5.0带宽达1.8TB/s)和NVSwitch交换芯片实现GPU全互联,显著提升AI训练(如万亿参数模型)、HPC及量子模拟等场景的数据吞吐效率。技术迭代从Pascal架构的160GB/s演进至Blackwell架构,并融入开放生态(如NVLink-C2C),推动数据中心级算力整合。NVLink通过高速、低延迟的互联架构,成为AI与高性能计算的核心基础设施。
2025-11-06 13:19:48
120
原创 国内首发!智能体安全管理平台发布,助力AI应用安全落地
火山引擎发布大模型安全测评平台和智能体安全管理平台,全面保障智能体全生命周期安全。测评平台基于TC260标准提供5大类31项安全检测,30分钟完成智能体检并输出合规报告。安全管理平台通过资产盘点、漏洞评估和提示词加固三大能力,实现99%+攻击拦截率。已应用于汽车、金融等行业,帮助客户显著降低风险项,提升安全防护能力,为智能体合规落地提供保障。
2025-11-05 13:40:22
376
原创 华为灵衢UB总线介绍
华为发布"灵衢"(UB)超节点互联协议,旨在构建支持AI大模型计算的基础设施。该协议采用统一内存语义和对等架构,使设备可直接访问远程内存,实现资源池化。技术突破包括2.1微秒超低时延和TB级带宽,支持64节点、52万张昇腾卡的集群互联。相比传统RDMA,"灵衢"更注重系统级资源调度,而非单纯数据传输。华为开放技术规范,推动生态建设,已有厂商开发兼容IP核。"灵衢"可适应x86、RISC-V等架构,未来将扩展至百万卡规模集群。
2025-11-05 13:38:38
1118
原创 同花顺AI-PaaS介绍(THS)
同花顺PaaS平台集成大模型管理能力,构建一站式机器学习服务平台。平台基于K8S和Docker技术,提供交互式建模、分布式训练、模型推理等核心功能,支持AI全链路研发。创新性地开发了AI分时复用方案,通过智能调度提升显卡资源利用率;采用Fluid组件加速模型推理;集成云原生监控体系实现全流程可观测。平台以"模型与数据为中心",提供模型开发、训练、部署及数据挖掘、标注等完整功能,支持多种开源框架和异构算力环境,具有灵活易用、高性能的特点,有效降低AI工程实施门槛。
2025-11-04 11:11:39
1329
原创 Kubernetes纳管、调度GPU 设备原理
摘要:Kubernetes通过设备插件框架实现对GPU资源的管理,核心组件包括NVIDIA Device Plugin和Container Toolkit,负责GPU资源上报和容器运行时支持。K8S将GPU定义为扩展资源,Pod需显式声明资源请求,调度器根据请求选择合适的节点。支持高级功能如节点标签、GPU共享(MIG和时间片)以及监控(DCGM+Prometheus)。在云平台使用时,相关驱动和插件通常已预装,简化了部署流程。K8S使GPU成为可调度、可监控的标准计算资源,满足AI/ML等高性能计算需求。
2025-11-04 10:37:03
73
2025面试经验-科大讯飞-系统架构师
2025-04-09
2025面试经验-阿里云智能-技术服务专家
2025-04-09
2025面试经验-海康萤石-Java应用架构师
2025-04-09
2025面试经验-京东零售-Java开发
2025-04-09
【信息技术领域】系统试运行保障及应急预案:构建全面的信息系统应急响应机制与试运行保障体系为系统试运行
2025-04-03
流程规范\研发规范\代码规范\前端\React编码规范
2025-04-03
流程规范\研发规范\代码规范\前端\HTML编码规范
2025-04-03
流程规范\研发规范\代码规范\前端\Flutter编码规范
2025-04-03
流程规范\研发规范\代码规范\前端\ESLINT规范
2025-04-03
流程规范\研发规范\代码规范\后端\6.安全规约
2025-04-03
流程规范\研发规范\代码规范\后端\附:专有名词解释
2025-04-03
流程规范\研发规范\代码规范\后端\5.设计规约
2025-04-03
流程规范\研发规范\代码规范\后端\4.工程结构
2025-04-03
流程规范\研发规范\代码规范\后端\1.编程规约
2025-04-03
流程规范\研发规范\代码规范\后端\3.单元测试
2025-04-03
流程规范\研发规范\代码规范\后端\2.异常日志
2025-04-03
Linux系统核心命令与基础架构配置指南
2025-03-25
人工智能基于云原生的AI Agent基础设施:金融领域大模型多模态应用加速落地方案设计
2025-11-10
容器编排基于Kubernetes的调度器架构与扩展机制研究:集群资源分配优化及异构算力调度实践
2025-11-10
这篇论文《Real-Time Detection of Hallucinated Entities in Long-Form Generation》提出了一种实时检测大语言模型在生成长文本时产生幻觉实
2025-10-20
第八弹-Real-Time Detection of Hallucinated Entities in Long-Form Generatio-pro.html
2025-10-20
用嘴画图:AI 一句简介:还在为画图头疼吗? * 产品画流程图,排版半天; * 售前看到竞对一张好图,想拿过来,要一笔笔画; * 开发想要架构图,还得手动画 这次分享带你体验:一句话搞定架构图流程图
2025-09-16
【大模型微调】基于Qwen3-8B的人设定制化训练:金融领域Hithink角色构建与评测系统实现
2025-09-16
【大模型微调】基于LoRA算法的LLaMA-Factory框架在法律领域中文语料上的SFT微调实践与参数优化指南
2025-09-16
H3C CAS 云计算管理平台 开局指导-E0785及之后版本-5W100-整本手册
2025-04-22
【Linux系统管理】常用命令汇总:磁盘挂载、Docker操作、防火墙配置与服务管理
2025-04-22
H3C CAS云计算管理平台 安装指导-E0785系列-5W113-整本手册
2025-04-22
2025面试经验-阿里云-交付架构师
2025-04-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅