THS_Allen
技术引领业务创新
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
《金融大模型国产化信创适配项目》概要说明(THS)
摘要:《金融大模型国产化信创适配项目》旨在打造全栈自主的金融行业大模型解决方案,以同花顺自研HiThinkGPT系列模型为核心,构建大模型管理平台和智能体开发工坊,支持风控、客服、投研等场景应用。项目深度适配华为昇腾等国产信创技术,提供双技术路线部署方案,确保安全合规与高性能。通过低代码开发平台和预置智能体,降低AI应用门槛,助力金融机构快速实现业务创新。方案兼顾技术自主性、业务适配性和运营可持续性,为金融信创转型提供全面支撑。(150字)原创 2025-12-08 14:15:21 · 907 阅读 · 0 评论 -
深度拆解 Claude 的 Agent 架构:MCP + PTC、Skills 与 Subagents 的三维协同
本文解析了Anthropic在Agent工程领域的三大创新:MCP+PTC、Skills和Subagents。MCP作为标准化连接协议,配合PTC实现高效程序化工具调用;Skills通过模块化"知识胶囊"为Agent注入专业技能;Subagents采用"分而治之"架构处理复杂任务。三者协同工作:MCP提供基础连接能力,Skills补充专业知识,Subagents实现任务分工,共同构建高效灵活的Agent系统。这些创新不仅优化了Claude平台,也为未来Agent框架发原创 2025-12-09 10:32:19 · 536 阅读 · 0 评论 -
K8S系列之2.1:工作负载与调度核心 Pod(K8S的最小调度单元与设计模式)
Kubernetes Pod:云原生协作单元的核心设计 Pod是Kubernetes的最小调度单元,本质上是共享执行环境的容器组,解决了紧密协作进程间的资源共享问题。Pod生命周期包含Pending、Running、Succeeded/Failed等状态,通过优雅终止机制确保应用妥善关闭。其设计精髓体现在三种关键模式:Sidecar(功能扩展)、Ambassador(服务代理)和Adapter(数据标准化)。探针机制(启动/存活/就绪)则为应用健康提供了多维度保障。理解Pod的这些特性是掌握Kubernet原创 2025-12-04 14:08:59 · 117 阅读 · 0 评论 -
K8S系列之1.2:集群的生命线(etcd 深度解析)
etcd是Kubernetes集群的核心存储系统,作为"唯一真相源"记录所有集群状态和配置信息。本文深入解析了etcd的核心技术架构,包括基于Raft的分布式一致性算法、v3数据模型与MVCC机制,以及Watch实时事件监听功能。etcd的高可用部署策略需权衡集群规模与性能,建议生产环境采用3节点或5节点配置,并优化关键参数如心跳间隔和选举超时。作为Kubernetes控制器和服务发现的基础设施,etcd的稳定运行直接关系到整个集群的可靠性。原创 2025-12-04 13:59:07 · 165 阅读 · 0 评论 -
Kubernetes技术全景解析:系列博客章节规划
Kubernetes技术全景解析系列规划 本系列博客系统性地讲解Kubernetes核心技术,涵盖7大模块:1)核心架构与etcd原理;2)工作负载管理与调度;3)服务发现与流量治理;4)存储与配置管理;5)安全与可观测性;6)扩展机制与高级调度;7)生态融合与前沿趋势。内容设计兼顾深度与广度,通过架构图、代码示例和场景对比,帮助读者掌握从基础概念到生产实践的全栈知识。每篇独立成章又相互关联,特别关注设计思想与最佳实践,适合具备容器基础的开发者、运维及架构师群体。原创 2025-12-03 14:39:31 · 236 阅读 · 0 评论 -
深入剖析K8S vGPU技术实现原理:从资源共享到性能隔离
摘要 随着AI计算需求的增长,GPU资源成为Kubernetes集群的关键资源。vGPU技术通过虚拟化方式实现GPU资源的细粒度共享,提升利用率并降低成本。K8S通过Device Plugin机制管理GPU,而vGPU技术(如HAMi)扩展了调度和隔离能力,支持多租户安全隔离和故障容错。性能监控工具(如Prometheus)可优化资源使用。vGPU在灵活性、隔离性和性能之间取得平衡,正成为K8S集群GPU管理的标配方案。原创 2025-12-01 11:13:52 · 633 阅读 · 0 评论 -
Label Studio 数据标注平台,大模型预训练与微调必备
摘要:LabelStudio是一款开源数据标注工具,支持文本、图像等多种数据类型的标注。本文介绍了其安装方法(通过conda创建环境并pip安装)、基础使用流程(创建项目、导入数据、设置标签、标注导出)以及AI自动标注功能的实现。重点讲解了如何通过MLBackend集成LangChain模型实现自动标注:创建自定义模型类、构建预测链、处理返回结果,最后配置到LabelStudio项目中。该功能可显著提升标注效率,标注人员只需在AI预测结果基础上进行修正。原创 2025-11-24 10:29:44 · 87 阅读 · 0 评论 -
Neo4j 图数据库(Graph Database),“大模型 + 知识图谱”
Cypher 是 Neo4j 图数据库专用的查询语言,其语法直观清晰,设计风格与 SQL 类似,专门用于高效处理图数据。它通过高度可读的声明式语法,简化了图数据的创建、查询、更新与删除(CRUD)操作,尤其擅长表达复杂的图模式匹配。除了基础操作,Cypher 还支持子查询、聚合计算、条件过滤以及集合操作等高级功能,是图数据库领域最核心的查询工具之一。在图数据库中,为了保持数据的一致性和完整性,我们可以为图中的节点或关系设置约束条件(Constraint)。属性唯一性约束属性存在约束(社区版不支持)原创 2025-11-24 10:26:20 · 176 阅读 · 0 评论 -
K8S资源池化技术实现原理
K8S资源池化技术实现原理摘要 Kubernetes资源池化技术通过抽象异构资源为统一逻辑池,实现动态分配与高效利用。其核心架构分为控制平面(API Server、Scheduler、Controller Manager、etcd)和数据平面(Kubelet、Kube-proxy、容器运行时)。关键技术包括:1)资源抽象建模,将CPU/内存/GPU等转化为可分配单元;2)智能调度系统,通过预选-优选算法实现最优资源分配;3)Device Plugin机制管理特殊硬件资源。该技术解决了传统架构资源碎片化问题,原创 2025-11-21 14:33:16 · 309 阅读 · 6 评论 -
Kubernetes调度器深度解析:从核心原理到实战应用
Kubernetes调度器深度解析:核心原理与实战应用 摘要:Kubernetes调度器(kube-scheduler)作为集群的"大脑",负责将Pod分配到合适的节点。本文深入剖析其核心架构,包括调度队列、缓存和插件化框架,详解两阶段调度流程(过滤与打分阶段),并介绍核心调度策略如资源需求调度、亲和性/反亲和性调度以及污点容忍机制。调度器通过公平、高效、灵活的调度算法,确保集群资源最优利用,同时支持自定义扩展以满足不同业务场景需求。原创 2025-11-10 13:48:58 · 860 阅读 · 0 评论 -
一文读懂NVLink
摘要: NVLink是英伟达研发的高速互联技术,旨在解决多GPU及GPU-CPU间的通信瓶颈。其通过点对点直连协议(如NVLink 5.0带宽达1.8TB/s)和NVSwitch交换芯片实现GPU全互联,显著提升AI训练(如万亿参数模型)、HPC及量子模拟等场景的数据吞吐效率。技术迭代从Pascal架构的160GB/s演进至Blackwell架构,并融入开放生态(如NVLink-C2C),推动数据中心级算力整合。NVLink通过高速、低延迟的互联架构,成为AI与高性能计算的核心基础设施。原创 2025-11-06 13:19:48 · 167 阅读 · 0 评论 -
同花顺AI-PaaS介绍(THS)
同花顺PaaS平台集成大模型管理能力,构建一站式机器学习服务平台。平台基于K8S和Docker技术,提供交互式建模、分布式训练、模型推理等核心功能,支持AI全链路研发。创新性地开发了AI分时复用方案,通过智能调度提升显卡资源利用率;采用Fluid组件加速模型推理;集成云原生监控体系实现全流程可观测。平台以"模型与数据为中心",提供模型开发、训练、部署及数据挖掘、标注等完整功能,支持多种开源框架和异构算力环境,具有灵活易用、高性能的特点,有效降低AI工程实施门槛。原创 2025-11-04 11:11:39 · 1378 阅读 · 0 评论 -
Kubernetes纳管、调度GPU 设备原理
摘要:Kubernetes通过设备插件框架实现对GPU资源的管理,核心组件包括NVIDIA Device Plugin和Container Toolkit,负责GPU资源上报和容器运行时支持。K8S将GPU定义为扩展资源,Pod需显式声明资源请求,调度器根据请求选择合适的节点。支持高级功能如节点标签、GPU共享(MIG和时间片)以及监控(DCGM+Prometheus)。在云平台使用时,相关驱动和插件通常已预装,简化了部署流程。K8S使GPU成为可调度、可监控的标准计算资源,满足AI/ML等高性能计算需求。原创 2025-11-04 10:37:03 · 98 阅读 · 0 评论 -
大模型安全防护核心技术:如何实时中断不安全内容的生成与输出
大模型安全中断技术摘要:本文探讨了实时中断大模型不安全内容生成的核心技术。相比事后过滤,实时中断能防止内容暴露、节约资源。关键技术包括:1)Token级流式中断,在生成每个Token时进行毫秒级风险评估;2)模型推理层面的干预,如停止符注入和注意力机制调整;3)系统级中断机制,通过异常处理或控制信号终止生成。这些方法需平衡安全性、响应速度与用户体验,形成多层次的防护体系。原创 2025-10-29 21:56:04 · 434 阅读 · 0 评论 -
长文本幻觉检测:方案综述与技术实现
本文探讨了大语言模型长文本幻觉问题及检测技术。长文本幻觉具有局部性、隐蔽性等特点,其检测面临实时性、细粒度定位等挑战。主流解决方案包括外部验证(高准确率但延迟高)、不确定性估计(实时但性能有限)和内部探针(实时高效)。重点分析了基于探针的技术实现,包括数据构建、模型架构和损失函数设计。其中LoRA增强探针可实时检测幻觉,混合损失函数可协同优化生成与检测任务。该方案在计算效率和检测精度间取得平衡,为实际应用提供了可行路径。原创 2025-10-22 15:13:58 · 535 阅读 · 0 评论 -
T5模型详解:Google如何用“万物皆文本”统一NLP世界
T5是Google提出的革命性NLP模型,采用统一的"文本到文本"框架将所有任务转化为相同格式。其核心是基于Transformer的编码器-解码器结构,通过前缀指令将分类、翻译等任务统一处理。T5使用C4数据集进行预训练,采用SentencePiece分词技术,支持多语言任务。虽然计算资源需求较大,但T5打破了任务界限,验证了迁移学习的潜力,为后续模型发展提供了重要启示。原创 2025-10-17 11:09:02 · 277 阅读 · 0 评论 -
DeepSpeed:解锁千亿模型训练的分布式魔法
在深度学习模型规模爆炸式增长的今天,传统的单卡训练方式已经无法满足需求。当我们面对拥有千亿参数的大模型时,分布式训练不再是"可选项",而是"必需品"。微软开发的DeepSpeed库,正是这个领域最具影响力的解决方案之一。原创 2025-10-15 11:27:07 · 180 阅读 · 0 评论 -
RDMA 在大模型训练中的革命性应用与技术实现
大模型训练中的RDMA技术解析 随着大语言模型参数规模突破万亿,分布式训练中的通信开销成为关键瓶颈。RDMA(远程直接内存访问)技术通过零拷贝传输和CPU旁路机制,显著提升训练效率。与传统TCP/IP相比,RDMA实现亚微秒级延迟和接近线速的吞吐量,特别适合大模型训练中的梯度同步(All-Reduce)、参数交换和检查点存储等高通信负载场景。RDMA支持SEND/RECV、READ/WRITE等核心操作,结合GPUDirect技术可直接访问GPU显存。典型实现包括InfiniBand和RoCEv2两种网络架原创 2025-10-10 15:09:32 · 372 阅读 · 0 评论 -
RoCEv2 (RDMA over Converged Ethernet) 技术详细介绍
本文深入解析RDMA over Converged Ethernet (RoCEv2)技术,该技术是AI时代算力网络的核心。文章从四个维度展开:首先阐述RDMA如何通过零拷贝和内核旁路解决传统网络的数据搬运瓶颈;接着拆解RoCEv2协议栈,对比其与InfiniBand和iWARP的特性差异;然后分析其在分布式AI训练、高性能存储等场景的关键价值;最后提供实战指南,强调无损网络配置、流量隔离和精细监控的重要性。RoCEv2虽能带来微秒级延迟和极低CPU开销,但需精心设计网络环境才能发挥最大效能。原创 2025-09-29 12:39:58 · 987 阅读 · 0 评论 -
主流深度学习框架(TensorFlow, PyTorch, MXNet等)全面介绍
深度学习框架是简化构建、训练和部署深度学习模型的软件库,提供张量计算、自动微分、计算图管理等功能。主流框架包括PyTorch(研究友好,动态图)、TensorFlow(生产部署,生态完整)和MXNet(可扩展性,多语言支持)。PyTorch适合学术研究,TensorFlow适合工业部署,MXNet适合分布式计算。其他框架如JAX(高性能计算)和PaddlePaddle(中文生态)也值得关注。选择框架需考虑研究或生产需求、团队背景和部署目标,目前PyTorch和TensorFlow是主导选择。原创 2025-09-25 12:35:34 · 328 阅读 · 0 评论 -
NVIDIA和华为在实现GPU/NPU算力共享与隔离方面核心技术路径
NVIDIA方案像是一个灵活的“软”分区,用软件技巧在一张卡上模拟出多个空间,成本低但隔音效果一般。华为方案像是一个坚固的“硬”隔断,从物理层面把大房间拆成了几个独立的小房间,彼此互不影响,但需要房子本身(硬件)支持这种结构。原创 2025-09-19 12:52:43 · 387 阅读 · 0 评论 -
全面解读AI Infra:架构、生态与未来趋势
文章摘要 大模型时代下,AI基础设施(AI Infra)成为关键技术基建,涵盖从数据准备到模型服务的全栈技术体系。文章系统解构了AI Infra的四层架构(硬件资源层、资源管理调度层、开发框架层、平台工具层),并分析了全球AI Infra生态图谱,包括云计算巨头、芯片厂商等全栈服务商,以及中国特色的多元竞合格局。通过对比Data Infra与AI Infra的核心差异,指出AI Infra更关注智能应用的规模化与自动化。文章还探讨了从传统数据设施向AI基础设施的转型路径,强调自主可控、软硬协同等发展趋势,为原创 2025-09-17 17:06:51 · 331 阅读 · 0 评论 -
什么是 Istio?
Istio 是一个开源服务网格,通过 Sidecar 代理(Envoy)和控制平面(istiod)透明管理微服务通信。其核心功能包括:1)流量管理(金丝雀发布、A/B 测试);2)可观测性(指标、追踪、日志);3)安全(mTLS、认证授权);4)韧性(重试、熔断)。相比 Kubernetes 提供基础编排,Istio 增强服务间通信治理;与 Spring Cloud 不同,它对应用透明。优势是功能强大、云原生集成,但存在复杂度高、性能开销等问题。适用于大规模微服务架构治理,如金丝雀发布、混合云管理等场景。原创 2025-09-17 12:25:17 · 91 阅读 · 0 评论 -
什么是 MoE(Mixture of Experts,混合专家系统)
MoE 是通过稀疏化来突破模型规模瓶颈的核心技术。它不再是让整个网络对所有输入进行处理,而是动态地、条件地使用网络中不同的部分。它是什么? 一种“专家团队+智能路由”的稀疏神经网络。为什么好? 以较低的计算成本,获得超大规模模型的知识和能力。用在哪儿? 几乎所有追求极致性能规模比的先进大模型(Mixtral, DeepSeek-V2, Grok-1)。挑战是什么? 显存占用巨大、训练复杂、通信开销高。原创 2025-09-15 12:22:03 · 519 阅读 · 0 评论 -
AI云原生支撑AI应用(尤其是AI Agent)全生命周期的技术栈和最佳实践
摘要:AI云原生是一套基于云原生技术、专门支撑AI应用全生命周期的方法论和技术栈,尤其针对AI Agent的规模化部署。它通过容器化、Kubernetes编排、弹性伸缩等技术,解决传统AI开发面临的资源动态需求、高复杂度、迭代缓慢等痛点。AI云原生技术栈包含计算资源层、开发运维层、数据模型层和应用框架层,为AI Agent提供弹性资源、自动化运维和高效推理能力,显著提升其可用性、扩展性和迭代速度,是AI Agent从实验走向生产落地的关键加速器。原创 2025-09-01 22:41:35 · 571 阅读 · 0 评论 -
深度解读麻省理工学院(MIT)发布的《The GenAI Divide: State of AI in Business 2025》揭示AI商业化困境
MIT的这份报告传递了一个核心信息:AI技术本身没有问题,问题出在企业的采购、管理和应用策略上。成功的路径是“从员工到企业”,而非“从企业到员工”。企业需要向那些已经找到正确使用方法的90%员工学习,采纳他们选择的灵活、响应迅速的工具,并重新思考如何将AI深度融入业务流程以创造真实价值。原创 2025-08-26 12:58:28 · 674 阅读 · 0 评论 -
Kubernetes 集群中,Master 节点与Node 节点工作原理及作用
本文详细介绍了3台Master节点和3台Node节点的Kubernetes集群架构。Master节点运行控制平面组件(API Server、etcd、Scheduler等),采用高可用设计,通过负载均衡和Raft协议确保服务连续性。Node节点运行工作负载,包含kubelet、kube-proxy等组件,负责容器生命周期管理。文章还展示了Master与Node的协同工作流程,提供了高可用配置示例、安全建议和资源配置参考,帮助构建稳定可靠的Kubernetes生产环境。原创 2025-08-15 09:27:33 · 627 阅读 · 0 评论 -
Kubernetes etcd 技术深度解析
摘要: etcd作为Kubernetes的核心存储引擎,采用Raft协议实现分布式共识,通过BoltDB+MVCC机制保证数据一致性与高效查询。其核心功能包括集群状态存储、服务发现和分布式协调,支持10k+ QPS的高性能读写。生产环境中需关注磁盘IO、网络延迟等瓶颈,建议采用NVMe SSD和读写分离优化。etcd具有强一致性优势,但存在写吞吐受限(<2,000 TPS)和运维复杂等不足,需通过定期快照和自动压缩等机制保障稳定性,是分布式系统元数据管理的首选方案。原创 2025-08-16 11:14:36 · 355 阅读 · 0 评论 -
K8S集群网络结构图
本文描述了一个基于Kubernetes的异构计算集群架构,包含1台算力服务器、3台管理节点和3台工作节点。架构采用分层设计:管理平面通过etcd集群实现高可用,工作平面通过负载均衡器连接,算力服务器通过vGPU技术为工作节点提供GPU资源。关键特性包括:多网络分区隔离、Raft共识的etcd集群、API Server负载均衡、200Gbps RDMA网络连接,以及完善的故障转移机制。物理部署建议采用双机架设计,管理节点和工作节点分置,确保高可用性和性能。该架构满足高可用性(99.95% SLA)、弹性扩展和原创 2025-08-15 10:16:43 · 494 阅读 · 0 评论 -
Kubernetes CNI(Container Network Interface) 容器网络标准化接口规范
摘要:Kubernetes CNI(Container Network Interface)是标准化接口规范,为集群Pod提供网络连接、IP分配及策略管理。主流插件包括Flannel(Overlay)、Calico(路由型)、Cilium(eBPF)及云厂商集成方案,性能差异显著(如Calico BGP延迟仅0.08ms)。核心功能涵盖IP地址管理、网络策略及多网络支持(Multus)。生产环境需优化性能(如IPVS模式)、排查故障(CNI日志分析)并强化安全(NetworkPolicy)。选型需结合集群规原创 2025-08-16 11:20:42 · 232 阅读 · 0 评论 -
AI Agent总体架构全景:从数据采集到智能决策
本文系统解析了企业级AIAgent系统的完整架构。首先,系统需要融合结构化数据(DaaS、数据仓库)和非结构化数据(专业网站、公众号)作为知识基础;其次通过MCP协议协调多模型协作,实现智能问数和RAG检索生成;底层依托Embedding、ReRank等技术保障问答质量;业务层通过LangChain、DB-GPT等实现推理分析;最后通过可视化组件呈现结果。整个架构实现了从数据接入、语义理解到智能问答的全链路闭环,为企业数字化转型提供了"智能大脑"解决方案。未来AI竞争将聚焦于架构设计与系原创 2025-08-01 12:33:58 · 104 阅读 · 0 评论 -
RFT(Reward Finetuning)技术详解与工程实现
RFT(Reward Finetuning)技术详解与工程实现原创 2025-06-09 12:50:19 · 7410 阅读 · 0 评论 -
KTO(Kahneman-Tversky Optimization)技术详解与工程实现
KTO(Kahneman-Tversky Optimization)技术详解与工程实现原创 2025-06-10 20:36:08 · 6692 阅读 · 0 评论 -
监督微调(SFT)技术详解与工程实现示例
监督微调(SFT)技术详解与工程实现原创 2025-06-09 12:34:54 · 8004 阅读 · 0 评论 -
RLHF(基于人类反馈的强化学习)技术详解与工程实现
摘要:RLHF(基于人类反馈的强化学习)是一种通过人类偏好优化AI模型的技术,分为监督微调(SFT)、奖励模型(RM)训练和强化学习优化(PPO)三个阶段。核心思想是将人类反馈转化为奖励信号,替代传统奖励函数。工程实现需高质量标注数据,使用PPO算法优化策略,并面临奖励破解、训练不稳定等挑战。未来方向包括高效RL算法、降低人类依赖和多模态应用。RLHF已成为大模型对齐的主流方法,显著提升生成内容的质量和安全性。原创 2025-06-11 18:32:03 · 6040 阅读 · 0 评论 -
SimPO(Similarity Preference Optimization)技术详解与工程实现
SimPO是一种无需人工标注的模型优化方法,通过语义相似度构建奖励信号实现模型对齐。其核心是利用预训练嵌入模型自动评估响应质量,计算高效且可零样本适配新领域。技术原理上,SimPO通过对比学习优化生成策略,使优质响应获得更高语义相似度评分。工程实现包含奖励构建、损失函数设计等关键步骤,并可通过嵌入缓存、混合精度等技巧加速训练。在医疗领域应用中,结合专业嵌入模型可进一步提升效果。相比传统方法,SimPO在保持相近效果的同时显著降低计算成本,为资源受限场景提供高效解决方案,但仍存在嵌入质量依赖等局限性。原创 2025-06-11 18:36:44 · 5367 阅读 · 0 评论 -
DPO(Direct Preference Optimization)技术详解与工程实现
DPO(Direct Preference Optimization)原创 2025-06-10 20:22:38 · 6760 阅读 · 0 评论 -
BizFinBench 全球首个深度贴合真实金融业务场景的大语言模型(LLM)
BizFinBench:首个金融业务场景AI评估基准发布 同花顺联合研究团队推出全球首个深度贴合金融业务的大模型评测基准BizFinBench,填补现有评估在金融复杂任务中的空白。该基准包含6,781条开源中文样本,覆盖数值计算、链式推理等五大维度九类任务,模拟真实业务场景如财报解析、股价归因等。评测采用创新的IteraJudge框架,通过三阶段评估揭示模型深层缺陷。测试25个主流模型显示:闭源模型在复杂推理领先15+分,但开源模型DeepSeek-R1在金融实体识别反超GPT-4o。该基准将成为金融AI发原创 2025-07-08 12:46:44 · 2317 阅读 · 0 评论
分享