自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

HULK一线技术杂谈

HULK是360的私有云平台,丰富的一线实战经验,为你带来最有料的技术分享

  • 博客(386)
  • 收藏
  • 关注

原创 时序数据库VictoriaMetrics 原理

这里引入了LSM的概念,数据会通过TSID 做hash,打散到若干的shard里面,之所以是多个shard是因为需要减少,shard 转入pending rows的时间,pinging rows 中会每5s将rows flush 到 in-memory parts中,parts中是由若干block组成的。这里Metric raw name,做hash决定发往哪个vmstorage节点,将此时间序列填充到对应的vmstorage的待发buffer中,攒批并压缩发送给vmstorage。

2025-04-02 10:24:51 647

原创 DeepSeek开源库DeepGEMM 性能测评

大规模矩阵 (m, n, k ≥ 4096): DeepGEMM 逐渐追平甚至略超 Cutlass,特别是在 (4096, 7168, 16384) 这种大矩阵情况下,Cutlass 仅为 DeepGEMM 的 0.73x-0.98x,说明 DeepGEMM 在超大规模 GEMM 计算上更优。尽管设计轻量,但在各种矩阵形状下性能可匹配或超越专家调优的库。在 大规模计算(m ≥ 1024) 时,Cutlass 基本与 DeepGEMM 持平(1.01x ~ 1.07x),但部分情况下略有下降(0.89x)。

2025-04-01 16:08:44 558

原创 虚拟机CPU绑核NUMA不均衡分配实现

NUMA(Non-Uniform Memory Access,非一致性内存访问)是一种在多处理系统中的内存设计架构,在多处理器中,CPU访问系统上各个物理内存的速度可能不一样,一个CPU访问其本地内存的速度比访问(同一系统上)其他CPU对应的本地内存快一些。可会存在一个问题:某个计算节点上面已经落了11台虚拟机,还有8个vcpu空闲,numa0剩余2个vcpu,numa1剩余6个vcpu,此时既不能落8核的单numa套餐,也不能落8核的双numa套餐,只能落小套餐,造成一定的资源浪费。

2025-03-28 14:10:54 863

原创 DeepSeek开源通信库DeepEP介绍

广大网友在惊艳其效果的同时也在好奇如此规模庞大的模型是如何高效的进行推理的,DeepSeek内部又是建立了一套什么样的推理系统以支撑其庞大的用户需求量的。DeepEP是专门针对MoE模型大规模专家并行场景进行优化的高效通信库,其依赖NVIDIA软件生态的NVSHMEM GPU通信库、GDRCopy低延时GPU显存拷贝库及IBGDA等核心技术,实现了经典的以NCCL为主的高效集合通信库的功能。可以看出,在小消息传输的场景下,和传统的cudaMemcpy相比,利用GDRCopy后的延时有了很大程度的降低。

2025-03-24 15:07:26 739

原创 云舟观测:应用性能监控助力业务零中断

以图形化的方式展示请求的完整调用路径,不仅呈现整个请求的总耗时,还细分为每个服务调用的耗时,以及网络延迟、数据库查询、缓存操作等关键环节的执行时间,辅助定位性能瓶颈。云舟观测是由360智汇云推出的一款一站式数据采集与监控观测产品,可以对基础设施、应用性能,以及云原生下业务指标和日志进行全面的监控和观测,构建全链路的可观测性服务,帮助用户及时发现和解决系统及应用性能问题,提高系统的稳定性和可靠性。应用性能优化:追踪服务端的全链路请求,识别接口调用慢、交易失败等问题,提升应用性能。

2025-03-20 15:17:02 574

原创 GPU虚拟化方案与落地

1. 背景本文总结一下当前 360 云平台虚拟机GPU 直通方案落地和容器+MIG 方案验证1. 背景AI 大模型作为 360 公司的重点战略目标,GPU 卡同时也作为战略资源,如果用物理机直接给用户使用,一个物理机默认带 8 张卡,有时用户用不到这么多,会造成 GPU 卡的浪费。所以,给用户提供的 GPU 卡需要精细划分,要求按卡分配,并且要有隔离机制。kvm 虚拟机和容器本身带有资源小单位划分和隔离的特性,于是团队采用了虚拟机和容器作为GPU资源提供方式来满足用户需求。2. 方案调研。

2025-03-19 18:15:24 825

原创 容器化部署内核版OVS热升级方案

内核版OVS热升级时,会先通过ovs-save dump 所有网桥上的Openflow存入临时文件,然后停止Vswitchd进程并设置flow-restore-wait为"true",此时再次启动Vswitchd进程时获取该特性设置了"true"不会从内核模块接收处理UPCALL,也不会让内核模块快路径的Flow超时,并且也不会连接Controller防止Openflow Restore前Controller下发Openflow。在容器外实现ovs-ctl restart的逻辑,具体请参考。

2025-03-17 11:35:42 866

原创 视频预加载技术提升用户体验

引言随着在线视频平台的普及,在线视频成为了用户日常生活中不可或缺的一部分,如何提升用户观看体验,尤其是在视频加载时间和播放流畅性方面,成为了开发者关注的焦点。视频预加载技术,作为提升视频加载效率和用户体验的重要手段,逐渐成为现代网页视频播放的一项至关重要的优化技术。1. 什么是视频预加载技术视频预加载技术是指在用户实际播放视频之前,提前加载部分或全部视频内容到本地缓存中的技术。通过预加载,可以减少...

2025-03-13 14:19:18 868

原创 DeepSeek 3FS文件系统亮点总结和知识点扩充

一、3FS特性总览DeepSeek开源周第五天,推出了支撑DeepSeek全线数据访问神器,3FS文件系统。Fire-Flyer File System(3FS)-一款在基于SSDS和RDMA网络可以将带宽全部利用的并行文件系统,在V3和R1中训练数据预处理、数据集加载、嵌入向量搜索和KV Cache查找等工作,3FS都立下了汗马功劳。项目一经发布,就获得了存储领域的广泛关注。大家纷纷从自己的侧...

2025-03-12 11:21:57 1034

原创 虚拟机流量镜像介绍

1. 背景流量镜像提供流量采集服务,可将指定采集范围的流量按不同过滤条件过滤,并复制转发至私有网络 VPC 下的 VM 上,适用于安全审计、风险监测、故障排查、业务分析等场景。1.1 工作流程流量镜像关键组成为采集源和接收端,具体工作流程如下图所示。采集源:VPC 中指定弹性网卡,可按所属网络、采集范围、采集类型和流量过滤等规则条件进行过滤。接收端:采集流量将被复制转发至接收 IP 中。1.2 使...

2025-03-10 16:30:42 838

原创 Redis Module:赋能智能化实时应用

1. Redis Module简述在人工智能(AI)技术快速落地的今天,开发者面临着模型部署效率、实时推理性能与数据基础设施融合的多重挑战。Redis作为高性能内存数据库,通过RedisML、RedisSearch、Neural-Redis模块等及其AI生态工具,为实时智能场景提供了独特的技术解决方案。本文深度解析Redis中AI模块的技术特性与应用实践。模块的核心价值扩展性:无需修改 Redis...

2025-03-07 14:54:35 1064

原创 HDFS多AZ容灾技术揭秘:构建高可用分布式存储系统

1. 背景当HDFS节点因为不可抗力因素(比如机房火灾、断电)或者设备故障(软、硬件破坏)导致应用在短时间内无法恢复时,HDFS容灾服务支持业务的跨可用区(Availability Zone)的容灾能力,对整体的应用做容灾备份来应对单地区的故障,满足业务的RTO(Recovery Point Objective)、RPO(Recovery Time Objective)核心指标。HDFS 多机房的...

2025-03-06 14:38:28 950

转载 开箱即用!专业训推能力“加持” 360数智推出“DeepSeek大模型一体机”解决方案...

点击蓝字关注我们面对火遍全球的DeepSeek,安全为先的大型政企如何迅速来启用它?日前,360数智推出“DeepSeek大模型一体机”解决方案,为打算私有化部署DeepSeek、却又在安全合规、大模型深度使用方面有所顾虑的政企用户提供了“本地化部署、开箱即用”的全新选择。据了解,该解决方案依托于360天纪DeepSeek大模型训推一体机打造,提供了从底层算力、模型服务、训练能力、应用开发的全栈解...

2025-03-05 18:58:59 46

原创 云舟观测告警服务能力,智能护航业务安全

在可观测性系统中,告警能力是保障业务系统稳定性和可靠性的重要支柱。通过及时发现业务系统中的异常或潜在风险,告警系统能够迅速通知管理员及运维人员,帮助其快速响应并采取修复或优化措施,从而有效防止问题升级,降低MTTR。本文将重点介绍360智汇云云舟观测产品中统一告警服务的架构设计与核心功能。一、背景1.1 告警服务的重要性业务系统通常会重点确保系统的稳定运行,通过业务埋点、主动推送等方式采集监控数据...

2025-02-27 14:28:47 925

原创 虚拟网络跨VPC NAT

一、背景函数计算服务中,业务用户提交计算任务到服务平台,在函数计算平台底层,以K8S作为基础设施底座,所有业务用户提交的计算任务都以K8S POD形式运行,所有函数POD运行在函数服务VPC,该VPC不区分业务POD,所有业务用户的函数POD在同一VPC内。业务用户在自有VPC内部署相关服务,如DB等,业务在函数计算平台提交的计算任务可访问业务自有VPC内的服务,如在函数任务中的代码访问业务自有V...

2025-02-20 12:03:38 1005

转载 DeepSeek发布新研究成果 : 稀疏注意力机制,全文解读版来啦!

DeepSeek新论文来啦!这篇文章在X(推特)上一经发布就引起了巨大轰动~这篇论文提出了一个新的注意力机制——原生稀疏注意力,硬件对齐且原生可训练的稀疏注意力。值得一提的是,DeepSeek创始人梁文锋亲自参与研究,可见DeepSeek团队对此研究的重视!本文主要对DeepSeek发布的这篇文章进行总结和解读~论文标题:Native Sparse Attention: Hardware-Alig...

2025-02-19 17:07:57 90

原创 360在离线混部 koordinator 和 hadoop-yarn 方案

公司内容器云平台使用的koordinator来调度和管理离线pod,大数据平台使用的hadoop yarn的方式来调度和运行离线作业。早期的使用方式是yarn以常驻pod的方式运行在k8s集群并通过koordinator的压制驱逐等手段来保证在线服务的稳定(每个node运行一个离线pod)。但这种运行方式有两个的弊端:1、比如申请的离线pod规格为16c 32G,运行过程中koordinator将...

2025-02-17 14:21:20 951

原创 应对流量洪峰:ingress-nginx弹性化改造与HPA压测全解析

一、背景概述deployment与daemonset部署服务方式的差异点:deployment部署的副本pod可以分布在各个node上,每个node可以运行多个副本,可以根据资源压力配置HPA。daemonset在于每个node上最多只能运行一个副本,常用场景有运行日志收集、运行监控等。公司早期公共集群部署ingress-nginx的模式为:daemonset + node label(设置节点l...

2025-02-13 16:57:42 720

转载 金蛇起岁,瑞岁呈祥 | 360智汇云祝您新年快乐!

2025-01-27 14:00:28 35

原创 微服务治理注册中心在go-zero中的具体实现原理

1. 了解注册中心微服务中服务发现注册是较为核心的话题,比如在当前项目中,社交api服务在实现好友列表查询的时候需要调用到用户rpc服务和社交rpc服务中的方法和功能才能完成业务。此时对社交api服务而言就需要知道用户rpc服务和社交rpc服务的地址,如果因需求更换了用户rpc服务的信息,而社交api没有发现则会直接影响到整个系统。关于服务地址的方式获取方式有两种:静态:基于在配置文件中定义好各个...

2025-01-21 16:24:24 949

原创 Cx5网卡HW LAG Vxlan分流方案设计与实现

1.背景计算节点虚拟网络OVS DPDK V1版本接管了Cx5网卡PF单口VM测试转发带宽仅8Gbits/s左右,网卡双口50Gbits/s的带宽能力没有得到有效利用。核心原因是网卡双网口没有做Bond给OVS DPDK接管并且收包没有应用多队列的特性。我们针对Cx5网卡设计实现了PF Bond与Vxlan分流,并做了一系列性能调优来实现Cx5网卡双网口50Gbit/s带宽的利用。2.方案设计2....

2025-01-20 17:35:43 1034

原创 理解rpc/grpc及请求协议http2

1. 理解rpcrpc在大众的定义上称为:远程过程调用,下面举个例子给大家分析。如:从订单服务中获取用户的信息在单体服务下(new UserService).GetUser(uid)我们可以这样的方式调用获取,但是当服务拆分开后代码也拆分为两份,这个时候就无法如单体服务那样new的方式调度,需通过rpc进行调度。在每个微服务中会开启一个rpc服务供其他服务访问,请求方这时会创建一个rpc的客户端...

2025-01-16 14:54:46 870

原创 智汇云ECS挂载OBS存储桶

1.背景介绍 对象存储OBS是互联网存储解决方案,能让所有开发人员访问同一个具备可扩展性、可靠性、安全性和快速价廉的数据存储基础设施。对象存储OBS 提供了一个简单 Web 服务接口,可用于随时在 互联网上的任何位置存储和检索任何数量的数据。开发人员可以利用OBS提供的REST API接口,命令行接口或者支持不同语言的SDK访问S3服务。 对于原来使用本地目录访问数据的应用程序,比如使用本地磁盘或...

2025-01-14 14:15:44 918

原创 360AI平台资源可视化建设

1.引言在当前高性能计算(HPC)、人工智能训练以及大规模分布式系统的快速发展中,计算集群成为了核心基础设施。然而,集群规模的不断扩张和复杂性的提升使得资源利用和优化变得愈发重要。集群资源可视化作为一种直观且高效的分析手段,为用户和管理员提供了对计算资源状态、节点健康状况和任务性能的深刻洞察,从而助力系统优化和业务决策。本文从集群资源可视化的整体概念出发,详细探讨360AI平台集群、节点、任务以及...

2025-01-13 14:24:41 959

原创 系统性认识容器镜像

一、简介1.docker image的本质镜像就是联合文件系统(UnionFS),目前用的驱动是overlay2(docker)/overlayfs(containerd)。2.docker的镜像rootfs,和layer的设计镜像的基础层是rootfs:任何程序运行时都会有依赖,无论是开发语言层的依赖库,还是各种系统lib、操作系统等,不同的系统上这些库可能是不一样的,或者有缺失的。为了让容器运...

2025-01-10 10:03:56 967

原创 大模型微调浅析

随着transformer技术的快速发展,大模型在自然语言处理领域取得了显著成果。然而,这些通用模型在面对特定任务时,往往需要进行进一步的调整和优化。大模型微调(Fine-tuning)作为一种关键的技术手段,能够有效提升模型在特定任务上的表现。本文将从基本概念、常见方法、技术细节、实践案例以及未来挑战等方面,对大模型微调进行介绍。1. 大模型微调的基本概念大模型的训练过程通常由两个关键阶段构成...

2025-01-09 16:56:29 633

原创 360AI平台存储管理实践

1. 前言360AI平台是一个覆盖机器学习、自然语言处理、计算机视觉等多领域的人工智能技术平台,提供数据管理、模型训练、在线推理等一站式解决方案。随着 360AI平台的快速发展,任务复杂度和资源需求逐步提高。以 Kubernetes(K8s)为核心的容器编排技术,结合 VolcanoJob 等调度插件,为计算密集型任务提供了灵活、高效的资源调度能力。然而,在多集群、多任务的复杂场景下,存储管理面临...

2025-01-08 16:26:06 969

原创 高性能分布式存储系统关键技术调研

在高性能存储设备越来越普及的今天,如何发挥高性能存储设备的性能,已经成为一个大数据企业绕不开的话题。传统的面向HDD或SATA SSD设计的分布式存储系统在高性能硬件上,甚至很难将硬件的性能发挥到其1/10。同时,伴随着AIGC、数据库系统的发展,越来越多的业务对高性能分布式存储产生了需求,同时也有更高要求。随着数据规模的增长,堆砌硬件的方式已经不能满足企业的正常发展。通过设计基于全闪硬件的高性能...

2025-01-07 17:37:04 765

原创 微服务中任务失败后如何进行重试

一、短时间的故障原因1. 应用所使用的资源是共享的,比如docker、虚拟机、物理机混布等,如果多个虚拟单位(docker镜像、虚拟机、进程等)之间的资源隔离没有做好,就可能产生一个虚拟单位侵占过多资源导致其它共享的虚拟单元出现错误。这些错误可能是短时的,也有可能是长时间的。2. 现在服务器都是用比较便宜的硬件,互联网公司的通常做法也是通过冗余去保证高可用。贵和便宜的硬件之间有个很重要的指标差异就...

2025-01-03 19:02:56 876

原创 ReentrantReadWriteLock基本原理以及在Yarn中的应用

一. 引言1.1 背景介绍随着多核处理器的普及和分布式计算的广泛应用,并发编程的重要性日益提升。尤其是在分布式系统中,多个线程和节点需要频繁地对共享资源进行并发访问,从而提升性能和吞吐量。然而,这也带来了线程安全、资源竞争等问题。为了应对这些问题,Java 提供了多种并发工具,其中 ReentrantReadWriteLock是一种专为高并发环境设计的锁机制,有效提升了读操作密集型场景下的系统性能...

2025-01-02 17:07:06 907

原创 360AI平台拓展nvidia dcgm指标属性实践

DCGM(NVIDIA Data Center GPU Manager)是一个针对NVIDIA GPU硬件的管理工具,广泛应用于数据中心环境中,用于监控和诊断GPU性能。然而,DCGM的指标并不涵盖所有可能的属性,特别是与容器化环境中运行的GPU相关的额外信息,如Pod的标签(label)、注解(annotations)等。360AI平台是一个覆盖机器学习、自然语言处理、计算机视觉等多领域的人工智...

2024-12-31 15:56:12 644

原创 Dify+函数计算,快速搭建工作流应用

一、Dify简介Dify是一款开源的大语言模型(LLM)应用开发平台。它融合了后端即服务(Backend as Service)和LLMOps的理念,使开发者可以快速搭建生产级的生成式AI应用。即使您是非技术人员,也能参与到AI应用的定义和数据运营过程中。同时Dify内置了构建LLM应用所需的关键技术栈,这为开发者节省了许多重复造轮子的时间,使其可以更加专注在创新和业务需求上。技术架构如下图所示。...

2024-12-26 14:53:48 1193

原创 域名熔断网关

1. 背景介绍1.1 业务背景由于公司对域名的访问有要求,不允许使用未备案的域名提供服务,但是对于云服务而言,仅只是通过口头或者文本的规章制度难以进行有效控制。对于面向外部开放式环境的用户来说,更加不可能通过简单的规则来进行限制,因此必须有一个比较有效的措施可以检测并且阻止这种使用未备案域名提供服务的行为。针对公司内部,我们可以通过流量分析,解析请求包的内容来发现未备案的域名,然后通过域名的归属找...

2024-12-25 16:31:32 604

原创 go-zero负载均衡实现原理

1. 什么是负载均衡关于微服务分布式及集群的概念即定义,在业界中这些往往会同时在同一个项目中,而集群在微服务中主要为服务的运行保障高可用。比如:在当前的项目情况下,我们可能针对用户服务部署两台服务以保障用户服务的高可用。实践在用户服务的Login方法中我们增加对请求信息的打印输出,即输出监听的配置信息以验证是访问的那个服务。/apps/user/rpc/logic/loginlogic.go在启动...

2024-12-20 15:15:42 1047

原创 基础设施即代码初探-开发Terraform Provider管理私有云MySQL实例

基础设施即代码(Infrastructure as Code, IaC)已经成为云时代DevOps实践中不可或缺的一环。通过代码来管理和配置基础设施,我们可以像开发软件一样,用工程化的方法来对待基础设施。在IaC领域,Terraform无疑是最流行的工具之一。1Terraform和Provider简介Terraform是一个用于安全高效地构建、更改和版本控制基础设施的工具。它通过一种声明式的语言(...

2024-12-19 11:07:57 837

原创 如何使用whisper+ollama+ffmpeg为视频添加中文字幕

在日常学习生活中,许多有价值的资料都是非中文的,例如 Andrej Karpathy 推出的几个与大模型相关的视频,例如经久不衰的 MIT 6.824 分布式系统课程,这些视频系统地讲解了特定领域的知识,时长较长,往往从一小时起步。如果逐句翻译,将耗费大量时间。然而,随着大型模型技术的快速发展,我们可以利用这些技术来翻译和学习这些视频,使我们的学习之路更加顺畅。本文将介绍如何使用 Whisper、...

2024-12-17 11:45:05 1861

原创 360容器云独享集群新功能介绍

对于独享集群不熟悉的朋友,可以先看一下这篇文章:容器云之独享集群介绍智汇云容器平台,独享集群功能已满足大部分业务的使用,如何发在公有云、toB场景上发挥更大价值呢?下面为大家介绍容器云平台k8s-on-k8s公有云落地实践经验。一、新功能:toB &SaaS独享集群上线1.整体SaaS的的流程图整体的SaaS流程,和司内的流程是差不多一样的,都是对master组件再另外一个集群进行托管,最...

2024-12-13 18:26:05 639

原创 WebRTC Simulcast 大小流介绍与优化实践

Simulcast 是 WebRTC 中的一种标准化技术 ,简称大小流。通过 Simulcast,客户端可以同时发送同一视频的多个版本。每个版本都以不同的分辨率和帧率独立编码,带宽较多的拉流端可以接收较高质量的视频流,带宽有限的拉流端则可以接收较低质量版本的视频流,从而保障每个参会者都能有流畅的观看体验。在我们的视频会议产品中,支持参会者启用大小流功能,以提高整体会议质量。1为什么选择大小流在网络...

2024-12-11 18:40:15 1018

原创 360AI平台Kubernetes Informer和Webhook的结合浅谈

1背景在现代软件开发中,持续集成和持续交付(CI/CD)已成为提高开发效率和软件质量的关键实践。然而,确保测试环境(Test Environment)的数据与生产环境(Production Environment)的数据保持一致,仍然是一个挑战。尤其是在防止预发环境中的操作意外删除或更新生产环境的数据方面,更是面临巨大的风险。为了解决这些问题,基于360AI平台的解决方案通过整合Kubernete...

2024-12-10 10:27:22 972

原创 基于eni弹性网卡实现k8s自研网络组件

1CNI相关介绍1. CNI概念Container Network Interface,容器网络接口,这个接口是 由 CRI 发起调用。接口的提供形式是 exec 二进制文件,重定向输入输出(元信息 version),以及设置环境变量(各种关键参数,pod name、namespace、netns 等)。即,将固定结构入参序列化成 json 字符串,重定向给 cni 二进制文件,二进制文件执行完从...

2024-12-06 11:15:19 1025

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除