自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(663)
  • 资源 (83)
  • 收藏
  • 关注

原创 A JIT for packet filters

BPF(伯克利数据包过滤器)是Linux网络协议栈中用于高效过滤网络数据包的关键机制。最新补丁通过引入JIT编译器,将BPF程序直接转换为x86汇编指令,使单次过滤操作提速50纳秒。该技术虽目前仅支持x86-64架构,但其成功验证了内核级JIT编译的可行性。文章还探讨了将类似优化应用于iptables的可能性,并指出基于BPF理念的nftables可能更具发展潜力。这一突破性改进为高流量场景下的数据包处理提供了显著的性能提升。

2025-07-30 05:28:44 296

原创 Dynamic DMA mapping using the generic device

本文介绍了Linux内核中的DMA API,分为基础API(Part I)和针对非一致性内存平台的扩展(Part II)。基础API包含:1)一致性内存分配dma_alloc_coherent/free;2)小型缓冲区的DMA内存池管理dma_pool_create/alloc/free;3)地址限制检查dma_set_mask;4)流式DMA映射dma_map_single等。特别说明了不同DMA方向(TO_DEVICE/FROM_DEVICE/BIDIRECTIONAL)的同步要求,以及物理连续性和对齐

2025-07-29 05:44:04 532

原创 Allowing BPF programs more access to the network

在Linux峰会上,Mahé Tardy讨论了开发Tetragon(基于BPF的安全监控软件)时遇到的挑战,主要聚焦两个方向:1)探索让BPF程序直接通过网络发送数据以消除用户空间拷贝,提出了vmsplice()或io_uring等实现方案;2)为BPF防火墙添加发送TCP reset包的能力,以更优雅地终止连接。虽然讨论未形成最终结论,但展示了BPF在安全监控领域的技术潜力,包括可能完全移除用户空间组件以增强安全性。与会者就技术可行性展开探讨,提出了netconsole等替代方案,总体上对扩展BPF功能持

2025-07-27 10:30:19 727

原创 Virtual machine scheduling with BPF

Vineeth Pillai在2024 Linux峰会上提出利用BPF优化虚拟机性能的方案,通过宿主机与客户机共享调度信息来减少"双重调度"开销。该方案使用共享内存和BPF程序进行调度决策,引发了关于实现方式的讨论,包括是否使用tracepoint或struct_ops回调、如何避免死锁等问题。虽然对BPF干预调度器存在担忧,但与会者普遍认可解决双重调度问题的价值。该补丁集已更新至第二版,正在开发第三版以回应维护者反馈。

2025-07-27 01:42:15 708

原创 Enforcement (or not) for module-specific exported symbols

Linux 6.16内核引入新的模块特定符号导出机制EXPORT_SYMBOL_GPL_FOR_MODULES,允许将符号仅导出给指定GPL许可的内建模块。该机制旨在解决内核开发者既不愿广泛导出关键符号,又需要支持某些内建模块的特殊需求。虽然最初计划加入强制验证机制确保仅限内建模块使用,但因可能影响开发者工作流而取消,最终仅保留宏名称变更。目前该机制尚无实际用例,但已有多个潜在应用场景准备中。该变更延续了Linux社区通过许可声明而非技术强制来规范符号使用的传统,在保持开放性的同时明确开发意图。

2025-07-26 05:03:48 1136

原创 SFrame-based stack unwinding for the kernel

摘要:内核开发社区正通过SFrame项目解决perfevents子系统在用户空间调用栈展开的效率问题。传统方法依赖帧指针或复杂的DWARF格式,前者影响性能,后者难以在内核实现。SFrame作为轻量级ORC格式的衍生方案,通过紧凑的ELF区段存储调用帧信息,支持高效栈展开。目前补丁系列分三部分推进:1) 添加延迟展开基础设施;2) 集成perfevents支持;3) 实现SFrame解析。尽管仍需完善共享库跟踪等细节,这项持续多年的工作已接近完成,未来将实现跨越内核/用户空间的高效统一性能分析。

2025-07-24 13:05:44 608

原创 A RDRAND followup

摘要:x86 CPU硬件随机数生成器(RDRAND/RDSEED)的可靠性问题引发讨论,Intel确认RDRAND在正常设备中不会故障,而RDSEED可能在高压下失效。保密计算应用依赖RDRAND即可确保安全。Linux内核维护者提交补丁优化错误处理,包括启动时用RDRAND播种失败则系统panic,但移除重试机制的修改因兼容旧CPU暂被搁置。相关补丁获开发者认可,标志着该问题阶段性解决。(149字)

2025-07-24 01:05:15 362

原创 Pitchforks for RDSEED

硬件随机数生成器(如x86的RDSEED和RDRAND指令)的安全性问题引发讨论。测试显示,多线程环境下RDSEED失败率高达97%,RDRAND也可能被耗尽管概率较低。这对依赖硬件熵源的机密计算(CoCo)构成重大威胁——若宿主机可耗尽随机数源,虚拟机安全将崩溃。内核开发者建议:1)添加重试机制;2)启动失败时警告;3)机密计算模式下直接panic。普通系统受影响较小,因内核能整合其他熵源。CPU厂商正评估是否需要微代码更新或架构调整。该问题再次引发对机密计算可行性的质疑。

2025-07-22 11:53:41 1158

原创 Cleaning up after BPF exceptions

摘要:Kumar Kartikeya Dwivedi自2023年开始为BPF添加异常支持,其工作分为两个阶段:2023年7月实现基本栈回溯,2024年2月新增资源释放机制。BPF异常机制独特之处在于无法被捕获且无类型区分,但会执行栈回溯。最新补丁通过创建栈映射表来跟踪和释放资源,解决了验证器原有漏洞。虽然存在对编译器变更影响合并的担忧,但Dwivedi认为运行时跟踪方案开销过大。该补丁集将整合现有栈检查代码进行优化,未来计划扩展支持更多资源类型。(150字)

2025-07-21 12:20:49 800

原创 Fixing a corner case in asymmetric CPU packing

Linux系统支持处理器架构中存在不同处理能力的CPU,如Arm的big.LITTLE系统和SMT架构。近期Ricardo Neri提交的补丁显示,在混合架构中调度器可能低效分配任务。SMT通过共享物理核心提高资源利用率,但性能提升有限。Linux通过降低SMT线程优先级来优化调度,5.16内核合并的补丁针对非对称CPU(如Intel Core+Atom组合)优化了调度策略,优先使用高性能核心而非SMT线程。测试显示性能有小幅提升,但个别场景出现下降。这标志着Linux对异构计算架构的持续优化。

2025-07-20 01:46:16 823

原创 Linux RDMA Maillist patchsets (Jul. 14 - Jul. 19, 2025)

本文介绍了Linux内核中的三项重要技术改进:1) GPU设备私有内存的P2P DMA访问支持,通过扩展内存管理接口和驱动程序回调,实现GPU与NIC等设备间的直接数据传输;2) PTP硬件时钟原始周期计数器的暴露机制,新增ioctl命令支持周期值与系统时间的关联转换;3) devlink健康报告器的可配置宽限期延迟机制,允许在用户定义的时间窗口内处理关联错误。这些改进分别优化了GPU计算性能、高精度时间同步和硬件错误恢复流程,显著提升了系统在特定场景下的运行效率。

2025-07-20 01:17:41 808

原创 Toward the unification of kselftests and KUnit

内核测试框架整合:KUnit与kselftests的融合之路 Linux内核长期存在两套独立测试框架:用户态的kselftests(2012年引入)和内核态的KUnit(2019年添加)。前者通过系统调用测试用户空间ABI,后者以内核模块形式验证内部函数。Thomas Weißschuh提出的补丁系列旨在将两者整合,使kselftests能以内核模块形式运行。关键技术包括:利用user-mode-helper功能创建隔离环境,采用内核自带的nolibc替代系统C库,并通过新增的EXPORT_SYMBOL_G

2025-07-17 12:34:24 916

原创 Kernel API specification and validation

摘要: 内核开发者承诺保持ABI稳定性以避免破坏用户空间代码,但缺乏明确的ABI定义和测试方法。Sasha Levin提出的"内核API规范框架"(第二版)试图通过宏定义系统调用、sysfs属性等接口的详细规范(如参数、返回值、错误码等),但当前方案仍不完整且会增加内核体积(每个API约4KB)。框架支持通过debugfs导出JSON/XML格式的规范数据,并引入Rust工具kapi进行版本差异检测,但自动化验证能力有限,主要依赖开发者主动维护规范。未来计划整合静态分析和模糊测试,但需社

2025-07-17 10:15:24 703

原创 Linux RDMA Maillist patchsets (Jul. 7 - Jul. 13, 2025)

摘要:该系列补丁对mlx5驱动的DMABUF内存管理进行了多项优化:1)动态选择最优页大小替代固定4KB配置,提升内存注册效率;2)修复页大小掩码处理缺陷,确保大页注册有效性;3)通过减少HCA的页表遍历次数降低缓存访问开销。同时引入RDMA新特性:统一CQ用户内存接口(支持虚拟地址/DMA-BUF)、标准化DMA句柄对象(支持TPH等扩展功能),并在mlx5驱动中实现完整DMAH基础设施。此外新增了AMDPensandoRDMA驱动支持,以及PCIe拥塞事件监测功能,通过ethtool计数器提供带宽压力可

2025-07-14 06:33:56 884

原创 Supporting kernel development with large language models

摘要:在2025北美开源峰会上,Sasha Levin展示了LLM在内核开发中的应用。他指出LLM作为概率性状态机,擅长处理小型明确任务,如自动生成内核补丁(如6.15版本中的哈希API修改)和辅助工具(如git-resolve脚本)。虽然LLM无法开发复杂模块,但能提升效率,尤其帮助非英语开发者撰写提交说明。通过"嵌入"技术实现语义搜索,以及"检索增强生成"(RAG)技术防止虚构内容,LLM正成为新一代开发工具。Levin认为LLM不会取代开发者,而是像高级语言一样

2025-07-14 01:14:25 902

原创 Improved load balancing with machine learning

Linux 6.12引入的可扩展调度器框架sched_ext,通过BPF机制实现了自定义CPU调度器的动态加载,为应对现代异构计算系统的复杂调度需求提供了创新解决方案。在2025北美开源峰会上,Ching-Chun Huang展示了如何利用机器学习优化5G网络处理等复杂场景的调度决策,其研发的调度器通过收集15维参数训练神经网络模型,在内核中采用定点运算实现智能负载均衡,相比EEVDF调度器将内核编译时间提升10%,任务迁移减少77%,标志着Linux调度机制从"通用最优"到"

2025-07-13 01:58:34 626

原创 Yet another way to configure transparent huge pages

摘要(149字): 透明大页(THP)性能优化方案引发内核社区争议。5月15日,Usama Arif提交的prctl()补丁试图为进程设置默认THP策略,但Lorenzo Stoakes认为这会破坏现有机制。讨论中出现了三种方案分歧:1)扩展prctl();2)创建全新系统调用;3)改进madvise()接口。Stoakes随后提交了支持进程级默认值的madvise()补丁,引入四个新标志。尽管存在API设计争议,双方同意继续完善提案。最终方案虽未确定,但进程级THP调优功能很可能即将进入内核。

2025-07-13 01:21:38 449

原创 Who are kernel defconfigs for?

内核配置系统长期以来被视为开发者入门的主要障碍,其数千个相互依赖的选项常导致构建失败或臃肿内核。尽管存在localmodconfig等辅助工具,但社区对合理默认值始终缺乏共识。近期x86维护者Ingo Molnar试图通过补丁使默认配置更贴近现代发行版需求,新增了虚拟化、BPF等特性支持,却遭到Linus Torvalds强烈反对,认为默认配置应服务"普通用户"而非云提供商。这场争论暴露出内核构建系统更深层的问题:由单一开发者维护的脆弱生态,在缺乏广泛共识的情况下难以实现实质性改进。最终

2025-07-13 01:14:19 635

原创 LLVM improvements for BPF verification

摘要:Alan Jowett在2024 Linux峰会上探讨如何改进LLVM对BPF程序的支持。当前LLVM优化生成的BPF代码常因校验器无法理解而失败,开发者不得不使用汇编代码规避。Jowett提出将MIT授权的PREVAIL校验器集成到LLVM流程中,但存在IR与字节码的转换难题。会议还讨论了代码覆盖率、分支提示保留等改进方向,但与会者在JIT优化复杂度等问题上存在分歧。由于BPF的特殊校验要求与传统编译器目标存在矛盾,解决方案仍需持续探索。

2025-07-10 13:21:41 883

原创 A plan to make BPF kfuncs polymorphic

摘要(149字) David Vernet在2024年Linux峰会上提出"多态kfuncs"机制,允许内核函数根据调用上下文动态选择实现。以sched_ext调度框架为例,当前scx_bpf_dispatch()函数通过per-CPU变量区分不同场景的实现,效率较低。新方案建议在BPF验证阶段通过子系统回调确定具体函数ID,将上下文判断从运行时移至加载时。讨论中,与会者探讨了该机制与现有helper函数的兼容性,以及基于参数类型实现多态的可能性。尽管存在实现复杂度问题,该机制有望提升B

2025-07-04 13:07:08 727

原创 How to write Rust in the kernel: part 1

Linux内核逐步引入Rust支持,本文是系列文章首篇,指导开发者配置Rust开发环境并融入内核构建系统。主要内容包括: 工具链要求:需rustc 1.78.0+、Clang、LLVM等,推荐完整安装Rust生态工具; 构建集成:内核采用Makefile直接调用rustc,不使用Cargo,通过配置选项CONFIG_RUST控制编译; 测试支持:集成Clippy静态检查、KUnit单元测试和文档测试(doctest),保持代码质量; 开发辅助:提供rustfmt格式化、rust-analyzer语言服务等工

2025-06-22 08:13:08 646

原创 A distributed filesystem for archival systems: ngnfs

Zach Brown在2025年LSFMM+BPF峰会上介绍了ngnfs文件系统,这是一个面向大规模离线数据集的新型分布式文件系统。与名字暗示的"下一代NFS"不同,ngnfs专为存储海量离线数据(如磁带归档)而设计,其核心特点是: 采用元数据为中心的架构,通过扩展属性记录文件位置; 分布式设计以应对高带宽需求; 创新的块级事务机制取代传统文件锁; 支持原子写入和在线修复功能。 该系统源自Brown在GlusterFS等分布式文件系统中的经验,旨在简化存储架构,目前已实现基础客户端和服务

2025-06-22 08:08:21 627

原创 Asterinas: a new Linux-compatible kernel project

Asterinas是一项基于Rust语言的创新操作系统内核项目,采用"框架内核"(framekernel)架构,巧妙融合单体内核的高效性与微内核的安全性优势。该项目将所有需要使用Rust不安全特性的代码封装在核心库中,其余内核服务则采用安全抽象开发,既保持了共享内存架构的性能优势,又显著提升了系统安全性。Asterinas兼容Linux ABI,支持x86和RISC-V架构,目前已完成206个系统调用实现。项目由中国多所高校研究人员和蚂蚁集团共同推进,近期目标聚焦云计算领域,计划构建具备

2025-06-20 22:19:24 775

原创 The hierarchical constant bandwidth server scheduler

摘要:Linux内核的POSIX实时模型面临多实时任务竞争CPU资源的效率问题。Yuri Andriaccio等人提出的分层恒定带宽服务器(CBS)补丁系列,通过改进调度算法,实现更确定性的多任务资源配置。该方案基于2001年Lipari和Baruah的理论研究,利用控制组层级结构(每个组配置周期和CPU时间参数)和重构的deadline服务器机制,在保证资源隔离的同时简化了调度器代码。相比现有实时组调度方案,新方法具有更强理论基础和更少代码量。该补丁已在2025年Linux调度峰会上讨论,但距离合入主线仍

2025-06-19 11:59:43 713

原创 Getting Lustre upstream

摘要: Lustre文件系统正在寻求重新进入Linux内核主线,在2025年LSFMM+BPF峰会上讨论了相关计划。这个高性能并行文件系统曾在2013-2018年间存在于staging树,但因开发模式不兼容被移除。目前开发者已提交1000多个适配补丁,并计划将核心代码与兼容代码分离,仅将前者纳入内核。主要挑战包括:1)开发流程需改用邮件列表而非Gerrit;2)需完全采用现代内核API(如folio);3)考虑先仅合并客户端代码以避免与ext4的耦合问题。社区建议通过公开代码审查和建立镜像仓库来建立信任,但

2025-06-19 11:46:46 482

原创 Parallelizing filesystem writeback

Linux内核写回机制改进:从单线程到并行化 在2025年LSFMM+BPF峰会上,Anuj Gupta介绍了针对Linux文件系统单线程写回(writeback)瓶颈的改进方案。当前bdi_writeback的单线程设计在多线程写入场景下成为性能瓶颈。改进方案通过引入bdi_writeback_ctx结构体实现高层并行性,依据文件系统结构(如XFS的AG)划分写回任务。讨论中,专家们就实现细节展开辩论:Hellwig建议采用XArray替代全局链表,Kara提醒低层并行性可能引发数据一致性问题,Mason

2025-06-14 23:50:16 1003

原创 Finding locking bugs with Smatch

Smatch是一款基于GPL许可的C语言静态分析工具,专注于Linux内核代码检查。在LinaroConnect2025大会上,主要开发者DanCarpenter介绍了其最新改进:重构插件系统以增强模块化,特别是针对锁机制的检查能力。该工具通过控制流和跨函数分析追踪锁状态,能检测错误路径未解锁、重复加锁等常见问题。相比其他开源工具(如Cppcheck、Coccinelle),Smatch在流程分析方面具有优势,但存在速度较慢、主要适配内核代码等局限。最新版本已改用类型而非名称追踪锁对象,有效解决了多名称引用

2025-06-12 23:50:26 739

原创 Improving iov_iter

摘要:在2025年LSFMM+BPF峰会上,David Howells主持讨论了iov_iter接口的改进方案。该接口用于内核缓冲区管理,但存在类型复杂、内存生命周期管理困难等问题。会议重点探讨了: 现有9种iov_iter类型(如ITER_IOVEC、ITER_BVEC等)的局限性,特别是废弃的ITER_XARRAY类型存在RCU锁问题; folio世界带来的新挑战,底层组件无法假设所有缓冲区都可获取页引用; 加密API从scatter-gather列表迁移到iov_iter的分歧,Hellwig反对添加

2025-06-12 23:44:13 633

原创 An end to uniprocessor configurations

摘要:Linux内核最初仅支持单处理器(UP),随着1995年引入SMP支持后一直保留双代码路径。Ingo Molnar近期提交补丁系列(43个)提议彻底移除UP支持,删减约1000行代码并简化调度器结构。虽然这会导致单处理器系统性能下降约5%,但目前实际UP用户极少,多数发行版已默认使用SMP内核。该改动标志着内核开发重点的根本转变,将维护负担从SMP转移到UP支持者身上。尽管补丁尚需更多测试,但社区暂未出现反对声音,反映30年来硬件生态的深刻变迁。

2025-06-12 23:38:31 829

原创 The second half of the 6.16 merge window

GPIO 和引脚控制:联发科 MT6893 和 MT8196 SoC、瑞萨 RZ/V2N SoC、联发科天玑 1200(MT6893)I2C、Sophgo SG2044 I2C、瑞萨 RZ/V2N R9A09G056 I2C、瑞芯微 RK3528 I2C,以及 NXP Freescale i.MX943 SoC。用于生成崩溃报告的 crash dump 内核(在主内核崩溃后运行的特殊内核)现在可以复用现有的 LUKS 密钥,从而支持将崩溃转储写入加密文件系统,这在此前是不可能实现的。

2025-06-12 23:32:29 1023

原创 io_uring, SCM_RIGHTS, and reference-count cycles

本文介绍了Linux内核中io_uring机制的最新进展及其与虚拟文件系统(VFS)引用计数问题的关联。io_uring机制经过多轮安全审查后,被发现存在因SCM_RIGHTS文件描述符传递导致的循环引用问题。VFS维护者Al Viro详细解释了文件引用计数管理机制,特别是当Unix域套接字通过SCM_RIGHTS传递文件描述符时可能形成的引用循环。文章重点描述了当进程将两端套接字注册到io_uring后又互相传递描述符时,会导致无法释放的内核内存泄漏。最终通过借鉴SCM_RIGHTS的处理逻辑,Jens

2025-06-07 19:27:29 664

原创 Slowing the flow of core-dump-related CVEs

Linux 6.16内核将对coredump(核心转储)处理机制进行重大改进,以解决长期以来存在的安全漏洞问题。开发者Christian Brauner指出,现有的coredump API存在严重缺陷,导致频繁出现CVE漏洞。 当前coredump机制的主要问题包括:用户空间helper程序以root权限运行、PID重利用引发的竞态条件,以及可能被攻击者利用来获取特权进程内存数据。Qualys近期就发现了Ubuntu和systemd的coredump处理工具中存在的漏洞。 6.16内核引入两项关键改进:1)

2025-06-07 17:57:55 559

原创 Zero-copy for FUSE

当一个使用 io_uring 的应用程序需要对其缓冲区执行读写操作时,内核会对这些缓冲区进行两次封装:首先封装为 iov_iter(类型为 ITER_UBUF),然后再封装为 bio_vec,后者用于描述一个块 I/O 请求的各个部分。然后,应用程序就可以使用 io_uring 的“固定”读写操作,重用内核已创建的对象,而不是每次调用都重新创建。Linux 6.15 对 ublk 做出了改进,允许服务器使用前面提到的 io_uring 缓冲区注册机制,这样就可以执行固定的读写操作,从而避免了数据复制。

2025-06-06 17:25:42 491

原创 Fending off unwanted file descriptors

有趣的是,在这一功能漫长的发展历史中,似乎从未有人认真考虑过接收方是否真的希望获得一个新的文件描述符。开发者通常会仔细管理程序中的打开文件表,关闭不再需要的文件,并确保不必要地将文件描述符传递到新的进程或程序中。如果传入的文件描述符处于某种挂起状态——例如一个攻击者控制的 FUSE 文件系统或一个挂起的 NFS 文件——被安装到某个进程中后,接收方在尝试关闭它时可能会被无限期阻塞。但如果接收方并不想要一个新的文件描述符呢?Iwashima 的解决方案是在套接字上提供一个新选项,以禁用接收文件描述符的能力。

2025-06-06 17:11:13 755

原创 Device-initiated I/O

摘要 在2025年Linux存储、文件系统、内存管理与BPF峰会上,Stephen Bates主持了关于设备发起I/O的讨论,重点关注点对点DMA(P2PDMA)技术的演进。P2PDMA自2018年Linux 4.20内核版本引入,允许PCIe设备间直接传输数据而无需经过系统内存。当前该技术已支持Arm64架构,并解决了早期与IOMMU兼容的问题。 会议探讨了设备发起I/O作为P2PDMA的下一步发展方向,目标是减少CPU在高速I/O操作中的负载。随着NVMe SSD的IOPS突破千万级,传统CPU处理方式

2025-06-05 15:42:52 1604

原创 Two sessions on faster networking

文章摘要: 2025年Linux峰会上,Cong Wang和Daniel Borkmann分别提出优化Linux内核网络性能的方案。Wang探讨通过BPF加速socket操作,包括使用sk_msg结构简化消息传递、绕过TCP栈实现本地通信,以及优化短消息处理性能。Borkmann则聚焦虚拟机网络开销问题,提出基于AF_XDP和netkit的新架构,使流量直接从物理网卡经QEMU进入VM内核,减少中间环节。两项方案均致力于消除网络协议栈中不必要的操作,但针对不同场景:Wang优化本地通信,Borkmann提升

2025-06-05 15:37:45 750

原创 Hardening fixes lead to hard questions

摘要:内核开发者Kees Cook因使用b4工具修改提交历史时意外重写了39个包含Linus Torvalds署名的提交,导致其kernel.org账户被暂时封禁。事件引发了对恶意活动的猜测,但最终确认是操作失误。b4维护者Konstantin Ryabitsev承认工具应增加防护机制,Torvalds要求禁止重写他人提交。该事件凸显了强大开发工具潜在的破坏性,促使相关工具改进安全措施。(149字) 核心要点: 操作失误引发安全警报 git历史重写导致身份混淆 开发工具缺乏必要防护 事件推动工具链安全改进

2025-06-03 05:38:31 1004

原创 The first half of the 6.16 merge window

音频支持:支持 AMD ACP 7.x、Cirrus Logic 的 CS35L63 放大器和 CS48L32 音频处理器、Everest Semiconductor 的 ES8375 与 ES8389、龙芯一号 AC'97 编解码器、NVIDIA Tegra264 SoC、Richtek 的 ALC203 与 RT9123 编解码器、瑞芯微 SAI 控制器、Intel WCL 以及 DJM-V10 混音器。现在,它已被一个更易维护、并与 Sphinx 构建系统集成得更好的 Python 脚本所取代。

2025-05-30 15:45:32 779

原创 Block-layer bounce buffering bounces out of the kernel

因此,Hellwig 提交了一组补丁,使得在启用了高端内存支持的系统上,这四个驱动全部无法加载,从而将 bounce buffer 的用户数量归零。将这些内存分配给用户空间确实缓解了燃眉之急,但不久之后,内核无法将高端内存用于自身操作的问题也暴露出来:可用于内核的低端内存实在太少,难以支撑系统高效运行。有趣的是,添加到 2.3.27 的 bounce buffering 代码中曾留有一条注释,说它将在 2.5 版本中“移动到块层”,因为当时计划对块设备代码进行一次大规模重构。在某些情况下它仍是不可避免的。

2025-05-30 02:50:26 757

原创 Verifying the BPF verifier‘s path-exploration logic

摘要:Srinivas Narayana在Linux峰会提出扩展Agni工具验证BPF验证器的路径探索逻辑。路径探索是BPF验证器的核心功能,通过选择性裁剪重复路径来提升效率,但实现复杂且曾引发安全问题。Narayana计划结合形式化方法和穷举测试来验证八项关键条件,重点解决"状态包含性"和"健全泛化"两个特性。虽然该项目面临挑战,但得到BPF开发者支持,有望为验证器最复杂的部分提供正确性保障。

2025-05-28 04:35:34 937

人工智能面向企业AI推理与微调的多Arc GPU解决方案:中国市场的性能优化与TCO优势分析

内容概要:本文介绍了英特尔在中国市场针对企业级AI推理的工作进展与未来规划。文章指出,AI推理是当前中国数据中心的主要工作负载,并且预计将持续增长。英特尔计划推出基于多Arc GPU的企业级AI推理和微调解决方案,旨在提高性价比和总体拥有成本(TCO)。具体措施包括优化软件栈、增加显存容量、提升内存带宽和计算能力,并支持跨GPU通信技术如GPUDirect P2P。此外,英特尔还将在硬件平台上进行投资,并与OEM厂商合作开展试点项目,以验证解决方案的有效性和收集客户反馈。; 适合人群:对AI推理解决方案感兴趣的IT专业人士、企业级AI开发者以及关注中国AI市场的投资者。; 使用场景及目标:①为企业提供高性价比的多GPU系统,用于10~20B参数的大规模语言模型(LLM)微调与推理;②构建易于安装和使用的软件栈,类似于Nvidia的Transformer-LLM、Triton和Nemo等工具;③通过优化流行的LLM模型,实现比竞品更好的性能和TCO。; 其他说明:文中提到,英特尔Arc A770相比Nvidia A10在推理任务中有更好的性能和TCO表现。同时,英特尔计划在2024年第二季度完成两个A770推理解决方案的试点,并在第三季度推出四个A770/750E推理和微调解决方案。此外,英特尔还呼吁志愿者参与OpenVINO优化项目,以增强其在Arc GPU上的表现。

2025-07-10

人工智能OpenVINO 2024.1发布:增强生成式AI工作负载与大语言模型性能优化及广泛支持

内容概要:本文介绍了OpenVINO 2024.1版本的新特性与改进,重点在于增强生成式AI工作负载的支持以及对大型语言模型(LLM)性能的优化。新版本引入了多个最新的SOTA模型如Llama3、Phi-3等,并优化了Mixtral、URLNet、Stable Diffusion 1.5等多个模型的性能。此外,支持Falcon-7b-Instruct模型,提供了INT8 PyTorch模型的微调支持和混合后训练量化。部署方面,预览NPU插件现已开放,JavaScript API可通过npm获取,ARM处理器默认启用FP16推理。NNCF(神经网络压缩框架)用于实现混合后训练量化,包括权重压缩、滤波器剪枝等多种技术。通过与Optimum集成,实现了Hugging Face模型的高效转换和量化。同时,新增多个OpenVINO Notebook,涵盖从LLM到图像处理等多个领域,为开发者提供了丰富的示例和教程。; 适合人群:从事AI开发尤其是生成式AI和大型语言模型应用的研发人员和技术爱好者。; 使用场景及目标:①利用最新SOTA模型进行研究或开发;②优化现有模型性能,特别是对于资源受限环境下的部署;③探索和应用最新的量化和压缩技术;④快速上手并部署基于OpenVINO的AI应用。; 其他说明:安装OpenVINO 2024.1可通过pip命令完成,更多详情参见官方文档。注意,使用Intel技术和产品时应遵守相关的人权原则和法律法规。

2025-07-10

### 文章总结:Intel以太网产品路线图与技术进展

内容概要:本文档详细介绍了Intel Ethernet Products Division的产品路线图和技术进展,涵盖了从10GbE到800GbE的不同系列网络适配器和控制器。重点展示了E830(200GbE)和E610(10GbE)新一代产品,强调了它们的技术特点、性能指标、应用场景以及未来规划。此外,还介绍了IPU(智能处理单元)的发展路线,包括Mt. Evans和Mt. Morgan系列的特性对比,如网络吞吐量、硬件加速、安全性和存储卸载等功能。文档中还提到了针对云计算、边缘计算和网络设备的具体优化措施。 适合人群:对高速网络适配器和智能处理单元有需求的数据中心管理员、网络架构师以及IT基础设施工程师。 使用场景及目标:①了解Intel新一代网络适配器和控制器的技术规格和发展趋势;②评估不同型号产品的性能和应用场景,选择适合自身业务需求的产品;③掌握IPU的功能特性及其在云计算、边缘计算和网络安全领域的应用潜力。 阅读建议:此文档内容详尽,技术细节较多,建议读者重点关注各产品的关键技术和应用场景部分,结合自身业务需求进行深入研究。同时,关注未来规划和技术发展方向,以便提前做好技术选型和部署准备。

2025-07-10

【密码学与硬件加速】基于SMx算法的QAT-Engine性能优化:中国国家标准加密算法在Intel平台上的实现与应用

内容概要:本文档详细介绍了Intel QAT_Engine对SMx(中国国家密码局制定的商用密码算法标准)的支持情况及其性能表现。SMx算法包括SM2椭圆曲线加密系统、SM3哈希算法和SM4对称加密算法。文档重点讨论了SM2签名、SM4-GCM、SM4-CCM和SM4-CBC四种算法在不同环境下的性能提升。通过对比QAT硬件加速和软件实现,展示了QAT_Engine在OpenSSL/BabaSSL和Nginx应用中的显著性能优势,特别是在大包处理时,性能提升可达10倍以上。此外,还介绍了QAT_Engine的多缓冲技术和小包卸载支持,以及在多核环境下的性能优化。 适合人群:具备一定计算机网络和密码学基础的研发人员,特别是关注高性能加密算法实现和优化的技术专家。 使用场景及目标:①评估和选择适合的加密算法和加速方案;②优化现有系统的加密性能,尤其是在处理大流量数据时;③提高Nginx等Web服务器的安全性和响应速度。 其他说明:文档提供了详细的测试数据和配置方法,帮助用户在实际应用中更好地利用QAT_Engine进行加密加速。同时,强调了QAT_Engine在多核和多线程环境下的高效能表现,以及其对不同负载大小的适应能力。

2025-07-10

加州驾驶手册中文版:加州交通法规与安全驾驶指南

内容概要:《加州驾驶手册中文版》详细介绍了加州的驾驶法规、安全驾驶习惯及相关服务。手册涵盖了从申请驾照到实际驾驶的各个方面,包括不同类型的驾照申请条件与流程、驾驶执照更新与延期、特殊群体(如未成年人、老年人、军人等)的驾照规定、REAL ID的相关信息、行人与骑行者的权利义务、各类交通信号灯和标志的解读、安全带和儿童约束装置的使用、特殊天气和路况下的驾驶技巧、与其他车辆(如大型卡车、摩托车、电动车等)共用道路时的注意事项,以及紧急情况和碰撞后的处理方法。此外,手册还强调了分心驾驶的危害,提供了关于疲劳驾驶、药物影响驾驶、酒精浓度限制等方面的指导。 适用人群:加州居民及计划在加州驾驶的非居民,特别是新驾驶员、未成年人、老年人以及军人等特殊群体。 使用场景及目标:①帮助申请人了解加州驾驶执照的申请流程和要求;②为现有驾驶员提供最新的交通法规和安全驾驶技巧;③确保所有道路使用者(包括行人和骑自行车者)知晓各自的权利和义务,以减少交通事故的发生;④指导驾驶员在特殊情况下(如恶劣天气、山路驾驶等)采取正确的驾驶行为;⑤帮助驾驶员了解并应对与酒精和药物相关的法律后果。 阅读建议:此手册不仅适用于准备考试的新驾驶员,也适合所有希望提高安全驾驶意识的加州驾驶者。手册内容详尽,涵盖了从理论到实践的各个方面,因此建议读者仔细阅读并结合实际情况进行理解和应用。对于特定章节(如交通标志、驾驶技巧等),可以通过访问DMV官方网站获取更多信息和辅助资料。

2025-07-07

【信息技术应用创新】中国信创CPU架构与生态发展分析:自主可控计算平台关键技术及应用前景综述

内容概要:本文主要介绍了中国信创(XinChuang)CPU的发展背景、认证流程、生态系统及其关键产品的技术架构与性能表现。信创旨在建立自立自强的国内信息技术产业,涵盖芯片、操作系统和应用软件。文中详细回顾了信创产业从1986年“863计划”启动至今的发展历程,重点阐述了信创CPU的技术路径选择(如指令集授权与自主研发),并分析了几款代表性CPU产品(如Phytium D2000、Hygon C86 3250、Zhaoxin KX-6780A)的核心架构特点及性能指标。此外,还探讨了信创CPU在轻量级工作负载下的用户体验以及与国外同类产品的性能对比。最后,对信创CPU的安全设计进行了深入解析,包括内置可信计算模块(TCM/TPCM)、物理隔离等特性。 适合人群:对国产CPU技术发展感兴趣的IT从业者、研究人员及政策制定者。 使用场景及目标:①了解中国信创产业的整体布局和发展脉络;②掌握信创CPU的关键技术和性能特点;③评估信创CPU在特定应用场景下的适用性和竞争力。 其他说明:文中提供的性能数据基于特定测试环境,实际使用效果可能有所差异。

2025-07-09

Intel vPro in Edge Applications - Sell high with OOB management and more premium features.pdf

Intel vPro in Edge Applications - Sell high with OOB management and more premium features.pdf

2025-07-07

【网络与边缘计算】基于英特尔技术的绿色数字基础设施解决方案:硬件、软件及应用层面的可持续性优化设计

内容概要:本文详细介绍了英特尔网络与边缘集团(NEX)在可持续发展方面的战略和技术。文章首先概述了英特尔产品的性能提升与可持续发展目标,如到2030年将客户端和服务器CPU的能源效率提高10倍。接着,文章详细描述了多个硬件和软件技术,包括液冷技术、模块化服务器设计、内置加速器等,旨在优化系统能效。此外,还探讨了针对不同垂直行业的解决方案,如电信、能源、交通等。最后,文章介绍了具体的技术细节,如处理器架构、内存支持、I/O扩展、安全特性等,并展示了多个实际应用案例,如5G核心网络的节能方案、智能边缘计算等。 适合人群:对数据中心和边缘计算领域有兴趣的技术人员、工程师及研究人员,尤其是关注绿色计算和可持续发展的专业人士。 使用场景及目标:①了解英特尔最新的硬件和软件技术如何帮助实现绿色计算;②探索针对不同行业和应用场景的具体节能解决方案;③研究如何通过优化处理器架构、内存配置和其他硬件特性来提高系统能效。 其他说明:本文不仅提供了大量技术细节,还强调了英特尔在绿色软件开发方面的投入,如加入绿色软件基金会、创建Telemetry Aware Scheduling和Power Manager工具等。此外,文章展示了多个实际应用案例,帮助读者更好地理解这些技术的实际效果。

2025-07-07

Mellanox Adapters Programmer’s Reference Manual (PRM) - 7

latest 7 specific user

2025-06-30

Mellanox Adapters Programmer’s Reference Manual (PRM) - 6

latest 6 specific user

2025-06-30

Mellanox Adapters Programmer’s Reference Manual (PRM) - 4

latest 4 specific user

2025-06-30

Mellanox Adapters Programmer’s Reference Manual (PRM) - 2

latest - 2

2025-06-30

Mellanox Adapters Programmer’s Reference Manual (PRM) - 1

latest

2025-06-30

【网络与边缘计算】CES定制代码发布流程详解:从开发到发布的全流程管理及工具使用培训介绍了CES(客户

内容概要:本文档详细介绍了Intel CES(Customer Enabling and Support)定制代码发布的流程与工具使用方法,旨在加速客户验证阶段的代码发布,提升客户体验。文档涵盖了从代码提交到最终发布的各个环节,包括代码请求审核、开发与验证、合规性检查、打包和发布。重点描述了提交代码变更请求的具体步骤,如通过Jira系统提交并选择正确的版本标签,进行代码审查,以及完成测试验证。开发过程中涉及组件的Git仓库操作、许可证检查、静态代码分析(如Coverity)、二进制安全分析(BDBA)等。此外,文档还提供了详细的合规性检查流程,包括SWLC许可证管理、OSPDT请求、SDLe任务等,确保所有代码符合内部和外部法规要求。最后,文档介绍了如何创建发布包,并将其提交给客户。 适用人群:适用于Intel内部从事CES定制代码开发和发布的工程师和技术支持人员。 使用场景及目标:①帮助团队成员熟悉并掌握CES定制代码发布的全流程;②确保每个环节都能高效执行,减少人为错误;③提高代码发布的合规性和安全性,保障客户利益。 其他说明:文档中包含了多个工具和系统的具体操作指南,如Jira、Git、Coverity、Protex等,并强调了在整个过程中保持良好的沟通和协作的重要性。同时,文档还提供了一些最佳实践和常见问题解决方案,帮助团队更顺利地完成定制代码发布任务。

2025-07-10

【深度学习优化】OpenVINO定制扩展性实现:模型推理工作流与自定义操作优化在推荐系统的应用

内容概要:本文详细介绍了OpenVINO的定制扩展机制及其在模型推理流程中的应用。首先,解释了什么是自定义操作以及为什么需要它,强调了其在优化性能、扩展功能方面的重要性。接着,阐述了OpenVINO的扩展分类,包括转换、自定义操作、前端扩展等,并展示了模型优化器的扩展性。文章还深入探讨了模型推理的工作流程,涵盖了内部图、设备特定转换、低精度转换等内容。此外,通过三个具体用例(自定义优化支持、BERT图/子图融合优化、客户LPT转换)展示了如何在实际项目中应用这些技术。最后,介绍了OpenVINO的转换API机制,包括匹配传递、图重写传递等,并详细描述了低精度转换的工作流程。 适合人群:对深度学习框架有一定了解,尤其是熟悉OpenVINO的开发者和工程师,以及希望优化模型性能的研究人员。 使用场景及目标:①理解并掌握OpenVINO的定制扩展机制,以便在特定应用场景下优化模型性能;②学习如何通过自定义操作、模型优化器扩展等功能提升模型的灵活性和效率;③了解如何利用转换API进行模型优化,特别是在处理复杂模型如BERT时的优化策略。 其他说明:本文不仅提供了理论知识,还结合了实际案例,帮助读者更好地理解和应用OpenVINO的扩展机制。建议读者在学习过程中结合官方文档和示例代码进行实践,以加深理解。此外,文中提到的多个GitHub链接和API文档是重要的参考资料,读者可以根据需要查阅。

2025-07-07

【OpenVINO定制扩展性】基于OpenVINO的模型推理工作流与自定义操作优化:多场景应用案例分析及性能提升OpenVINO的

内容概要:本文详细介绍了OpenVINO的定制扩展性机制及其在模型推理流程中的应用。文章首先概述了OpenVINO的扩展性需求及其分类,解释了自定义操作的必要性和应用场景。接着深入探讨了OpenVINO模型推理的工作流,包括内部图、设备特定转换、低精度转换等关键步骤。文中还通过三个具体用例展示了如何在模型转换过程中实现自定义优化支持,如MMoE模型的自定义操作支持、BERT模型的子图融合优化以及客户框架的低精度转换(LPT)。此外,文章还介绍了OpenVINO的转换API机制,包括匹配器传递、图重写传递等技术细节。 适用人群:对深度学习模型优化感兴趣的开发者,尤其是那些需要将自定义操作集成到OpenVINO框架中以提高性能或支持特定功能的研发人员。 使用场景及目标:①了解如何为OpenVINO添加自定义操作,以便支持不被原生支持的功能;②掌握模型推理优化技巧,如BERT模型的子图融合优化;③学习低精度转换(LPT)的具体实现方法,以提升模型在不同硬件平台上的推理性能。 其他说明:本文不仅提供了理论上的指导,还结合实际案例进行了详细的技术实现讲解。读者可以通过提供的GitHub链接获取更多源代码和工具包,帮助理解和实践相关技术。此外,文章强调了OpenVINO的灵活性和可扩展性,鼓励开发者根据自身需求进行定制化开发。

2025-07-07

【视频协作技术】基于Intel SDK的智能视频会议解决方案:混合办公模式下的远程协作与技术创新

内容概要:本文介绍了智能视频协作SDK套件的发展趋势和技术特点。随着疫情加速了工作场所的变革,协作工具成为企业运营的关键。预计到2024年,全球劳动力中的数字原住民比例将从2020年的52%上升至72%,远程办公比例增加,视频会议市场预计在2026年超过500亿美元,复合年增长率为16%。智能视频协作SDK套件通过集成多种技术如高分辨率摄像头、互动平板显示器、无线投屏等,提供灵活且高效的解决方案。它支持自动构图、背景模糊、面部美化等功能,并且可以通过软件升级不断优化。此外,BYOM(自带会议设备)模式逐渐普及,允许用户利用个人设备进行高质量视频会议。; 适合人群:从事视频会议系统开发的技术人员、IT架构师以及对智能视频协作感兴趣的行业专家。; 使用场景及目标:①适用于需要提升远程及混合办公效率的企业;②为视频会议系统开发商提供技术支持和创新方向;③帮助企业在会议室中部署先进的音视频设备,改善用户体验。; 阅读建议:本文详细介绍了智能视频协作SDK的技术细节和发展趋势,读者应关注其中提到的新技术和应用场景,特别是自动构图、背景移除等功能的具体实现方式及其对企业协作的影响。

2025-07-09

【边缘计算与网络】英特尔融合边缘媒体平台:优化多服务部署及资源调度的融合边缘媒体

内容概要:本文介绍了英特尔融合边缘媒体平台(Converged Edge Media Platform, CEMP),旨在应对市场趋势与问题,提供融合多服务的解决方案。CEMP具有优化的硬件配置,支持云原生部署,实现动态资源编排和弹性扩展,适用于CDN、云游戏和实时视频处理等关键负载。CEMP通过Kubernetes框架和自适应调度器实现了智能服务编排,支持跨多个集群的资源管理,并提供硬件加速和安全功能。CEMP的目标是提高硬件利用率、降低成本并确保服务质量。此外,文章还展示了CEMP的架构、关键特性和未来路线图,以及其在不同行业中的应用场景,如零售、医疗保健、制造等。 适用人群:对边缘计算和媒体处理感兴趣的IT专业人士,包括系统架构师、开发人员、运维工程师和服务提供商。 使用场景及目标:① 实现低延迟、高效率的内容分发网络(CDN)和云游戏服务;② 支持实时视频处理,减少现场设备的需求;③ 提供硬件加速和优化,提升性能和降低成本;④ 通过智能调度和弹性扩展,满足高峰期的服务需求。 其他说明:CEMP不仅是一个技术平台,还是一个生态系统,集成了多种开源框架和工具,为用户提供完整的解决方案。CEMP的目标是在2023年进行5次以上的CoSP/ISV试验,发布解决方案蓝图,并执行市场推广计划。该平台还支持多种协议和流媒体格式,如RTMP、HLS等,适用于直播和点播场景。

2025-07-09

Mellanox Adapters Programmer’s Reference Manual (PRM) - 5

latest 5 specific user

2025-06-30

Mellanox Adapters Programmer’s Reference Manual (PRM) - 3

latest - 3 specific user

2025-06-30

IB Specification Vol 1-Release-2.0-Draft-2025-07-23 - 2

内容概要:本文档详细介绍了InfiniBand架构2.0传输层的相关规范,涵盖PUT类操作、事务排序、包传输头验证、可靠服务特性、包序列号(PSN)、错误处理机制以及XRC模型等内容。PUT类操作用于从请求节点向响应节点传递数据,支持最大231字节的消息,并定义了不同OpCode的具体操作细节。事务排序规则确保请求消息按工作队列元素(WQE)的顺序发送。包传输头验证确保每个包能够正确关联到特定队列对(QP)。可靠服务包括连接和数据报两种形式,具有最多一次、有序且无损坏的消息传递特性,并通过ACK/NAK协议保证可靠性。包序列号用于维护消息顺序,防止重复或丢失。错误处理机制定义了各种错误情况下系统的响应方式。XRC模型减少了大规模集群中全连接所需的队列对数量,提高了资源利用率。 适合人群:对网络通信协议有研究兴趣的技术人员,尤其是从事高性能计算和数据中心网络架构设计的专业人士。 使用场景及目标:①理解InfiniBand架构2.0传输层的工作原理和技术细节;②掌握PUT类操作、事务排序规则、包传输头验证流程等关键技术点;③学习可靠服务的实现机制及其在网络通信中的应用;④了解错误处理机制,确保系统稳定性和数据完整性;⑤探索XRC模型的优势及其对大规模集群通信效率的影响。 其他说明:本文档为草稿版本,包含大量技术细节和规范说明,适用于深入研究InfiniBand架构的专业技术人员。阅读时需结合实际应用场景进行理解,建议配合官方文档和其他参考资料一起学习。

2025-07-29

IB Specification Vol 1-Release-2.0-Draft-2025-07-23 - 4

内容概要:本文档是《InfiniBandTM Architecture Release 2.0 Subnet Management》的一部分,详细介绍了InfiniBand架构中的子网管理规范。文档涵盖子网管理的基本概念、属性、方法以及状态机等内容。具体来说,文档描述了子网管理实体(如SMA和SM)的功能和支持的方法,包括获取和设置属性、响应陷阱等。此外,还讨论了子网管理包(SMP)的格式、认证机制(如M_Key)、属性表(如PortInfo、NodeInfo等)以及错误处理规则。文档还特别强调了子网管理器(SM)的状态转换及其控制包的交互方式,确保子网只有一个主管理器,并详细说明了子网发现、路径管理和故障转移的过程。 适合人群:具备网络管理、硬件配置或系统集成背景的专业人士,特别是对InfiniBand架构有初步了解的技术人员。 使用场景及目标:①理解InfiniBand子网管理的核心组件和工作流程;②掌握SMP的格式和处理逻辑,以便进行子网配置和故障排查;③学习如何通过状态机实现子网管理器之间的协调与切换,确保高可用性和稳定性;④熟悉各类管理属性的用途和设置方法,为实际部署提供

2025-07-30

IB Specification Vol 1-Release-2.0-Draft-2025-07-23 - 3

内容概要:本文档是《InfiniBandTM Architecture Release 2.0 Software Transport Verbs》的一部分,主要介绍了InfiniBand架构中主机通道适配器(HCA)的配置参数与操作规范。文档详细描述了HCA支持的最大队列对(QP)、工作请求(Work Request)、完成队列(CQ)、内存区域(Memory Region)、保护域(Protection Domain)、地址句柄(Address Handle)等资源的数量限制及其管理方法。此外,还涵盖了共享接收队列(SRQ)、扩展可靠数据报(Reliable Datagram)、内存窗口(Memory Window)的创建与销毁操作,以及各种错误处理机制。文档最后提供了关于异步事件和MAD验证流程的说明。 适合人群:具备网络编程和硬件接口开发基础知识的工程师或研究人员,特别是从事高性能计算、数据中心网络优化工作的专业人员。 使用场景及目标:①了解InfiniBand架构下HCAs的功能特性与性能指标;②掌握HCAs上各类资源的具体配置方式;③学习如何通过软件传输动词(verbs)进行资源管理和故障排查。 其他说明:此文档为草稿版本,旨在为开发者提供详细的API参考和技术指导,确保其能够正确地利用InfiniBand技术构建高效可靠的通信系统。文档内容涉及多个层面的技术细节,建议读者结合实际应用场景深入研究,并参照官方发布的正式版本进行最终确认。

2025-07-30

通信技术Intel CPU在5G基站中的应用与优化:从RAN架构到功耗管理的全面解析

内容概要:本文档主要介绍了Intel CPU在5G基站中的应用,详细描述了4G和5G无线接入网络(RAN)的架构及其协议栈,包括PDU、SDAP、PDCP、RLC、MAC、PHY等协议的功能。文档还探讨了传统基站(BTS)的优化设计,如成本和功耗优化、系统安全启动机制、内部网络的安全性措施等。此外,重点介绍了Intel针对无线接入市场的两款产品:Snow Ridge和Grand Ridge,前者基于增强型Atom Tremont核心,支持下一代数据包处理硬件加速和强大的NFV虚拟化支持;后者则采用了最新的Atom CPU核心,具备更高的I/O和数据包加速能力,并且支持DDR5内存。最后,文档讨论了5G基站的功耗问题,指出5G基站的功耗约为4G基站的3倍,并提出了动态功率节省的要求和方法。 适合人群:通信行业工程师、网络架构师、对5G技术感兴趣的IT专业人士以及从事无线通信研究的科研人员。 使用场景及目标:①理解5G基站的工作原理和技术细节;②掌握Intel CPU在5G基站中的具体应用场景和技术优势;③探索5G基站功耗优化的方法与策略。 其他说明:文档中涉及大量技术术语和缩略词,阅读时需要具备一定的通信基础知识。

2025-07-20

【人工智能大模型训练】大规模LLM系统并行计算与网络挑战分析:Gaudi系列芯片及IPU解决方案设计了大规模语言模型

内容概要:本文探讨了大规模语言模型(LLM)训练系统的并行计算与网络挑战。文章首先介绍了AI LLM系统中的数据传输关键技术,如远程DMA、流控机制以及不同互联技术(NVLink、Ethernet、InfiniBand)的性能指标。随后详细讨论了计算并行性参数的选择,包括张量并行(TP)、管道并行(PP)和数据并行(DP),并分析了这些选择对吞吐量的影响。文中还对比了不同规模的Gaudi系统配置及其在GPT-3和其他大型语言模型上的表现。此外,文章提出了针对中国市场的AI网络解决方案,旨在解决RoCE可扩展性问题,通过引入IPU技术和优化的Scale Out架构提高节点间连接的可靠性。 适合人群:从事AI基础设施建设的研发人员和技术管理人员,特别是关注大规模语言模型训练系统性能优化的专业人士。 使用场景及目标:①理解不同类型互联技术在LLM训练中的应用及其性能差异;②掌握计算并行性的参数选择方法及其对系统吞吐量的影响;③了解如何通过引入IPU等新技术提升AI网络的可靠性和性能,以应对RoCE可扩展性挑战。 其他说明:本文不仅提供了理论分析,还结合具体实例进行了性能评估,为相关领域的从业者提供了宝贵的参考依据。同时,文中提及的行动路线图明确了各个阶段的技术迁移计划和时间表,有助于指导实际项目实施。

2025-07-20

### 【视频处理领域】Intel VPP SDK与SVET 2.0技术概述:加速视频处理应用开发与优化Intel VPP SDK

内容概要:本文介绍了Intel VPP SDK(视频处理软件开发工具包)及其对视频应用加速的重要性。VPP SDK旨在为开发者提供优化的API接口,简化从ARM架构迁移到Intel架构的视频处理应用开发流程。它支持多种典型视频处理应用场景,如网络视频记录仪、视频采集系统、视频矩阵控制器等。VPP SDK包括核心功能库(Core Lib)和示例应用程序(Sample App),前者涵盖视频编解码、图像预处理、音频处理等功能,后者提供评估工具和参考实现。VPP SDK的核心价值在于加速客户的产品设计与生产,扩大业务机会,减少技术支持工作量。此外,还详细描述了VPP SDK的架构、特性以及不同阶段的功能开发计划。 适合人群:从事视频处理应用开发的技术人员,尤其是需要将现有ARM解决方案迁移到Intel架构的研发团队。 使用场景及目标:①加速视频处理应用的设计与产品化;②降低从ARM迁移到Intel平台所需的开发成本;③支持多视图显示、视频捕获与流媒体、媒体编码等功能的快速集成;④提高视频处理性能,优化开发者体验。 其他说明:VPP SDK不仅提供静态组合的基础功能,还支持动态管道控制,如流的动态添加/移除、暂停/恢复、隐藏/显示、缩放等。此外,SVET 2.0作为VPP SDK的一部分,增强了对RTSP流媒体的支持,并提供了更丰富的动态管道控制功能。文档中还包括了详细的API调用流程和错误处理机制,确保开发者能够高效地利用VPP SDK进行开发。

2025-07-20

### 文章总结:Intel CCID 平台解决方案与产品路线图(2023-2024)

内容概要:本文档为Intel CCID平台解决方案在中国交通运输领域的应用路线图(2023年第二季度),涵盖智能交通、智能铁路、智能社区等多个方面。文档详细介绍了TFCC(运输融合控制计算机)在不同场景下的应用,如智能停车、ETC、智能交通管理系统的功能和工作负载,以及雷达、激光雷达、摄像头等传感器的数据处理与融合。此外,还展示了Intel在视频处理、AI推理、边缘计算等方面的硬件和软件支持,包括多种处理器平台(如Alder Lake、Tiger Lake等)及其优化特性。文档强调了产品的高性能、低功耗、扩展性和可靠性,并提供了参考设计和实施方案以加速产品上市时间。 适合人群:Intel内部销售团队(FAEs/FSEs、RAMs、MDMs等)、GMC、地理营销、CMM等需要了解最新技术进展的人员。 使用场景及目标:①智能交通系统(ITMS)中的多模态交通对象检测、视频分析、雷达信号处理、激光雷达点云处理和数据融合;②ETC系统中的车辆路径识别、自动控制车道设备、大流量视频存储;③智能停车中的车辆类型和尺寸识别、停车时长管理;④智能铁路中的乘客信息系统(PIS)、自动售检票系统(AFC)等。 其他说明:

2025-07-20

OpenVINO 2023.3 and LLM.pdf

OpenVINO 2023.3 and LLM.pdf

2025-07-18

【云计算安全】多租户云环境中的内存DoS攻击:危害与防御机制设计

内容概要:本文探讨了多租户云环境下的内存拒绝服务(DoS)攻击及其严重性和缓解方法。研究表明,在共享硬件内存资源的情况下,恶意虚拟机可以通过多种方式引发受害虚拟机的工作内存竞争,导致性能显著下降。作者展示了针对Hadoop分布式应用和电子商务网站的具体案例研究,证明即使只有一个恶意虚拟机与多个受害节点共存,也能造成整个应用程序的显著性能退化。此外,文章提出了一种新的防御机制,利用统计指标检测异常行为并采用执行节流来减轻攻击损害,该解决方案已在OpenStack平台上实现了原型系统,具有低性能开销的特点。 适合人群:云计算安全研究人员、云服务提供商的技术团队以及关注云平台安全性的IT专业人员。 使用场景及目标:适用于评估和防范云环境中由恶意虚拟机引起的内存资源竞争问题,确保关键业务系统的稳定运行,提高云平台的安全性和可靠性。 其他说明:文中提到的攻击技术包括缓存清洗、总线锁定和内存洪泛等,而提出的防御措施则基于现有硬件性能计数器和周期调节功能,无需修改CPU硬件或操作系统。这使得解决方案能够快速部署到公共云环境中,为客户提供更高的安全保障。

2025-07-15

硬件设计Mackay Peak PCIe IPU适配器技术详解:网络与存储加速功能综述

内容概要:Mackay Peak是基于Intel IPU E2100 SoC (Mt. Evans)的200GbE PCIe IPU适配器。它支持200GbE以太网管道,提供高达200MPPS双向吞吐量,内置行内加密引擎确保网络安全性。此外,它还具有专用计算单元和本地内存用于控制平面处理,硬件实现全vSwitch卸载、NVMe硬件卸载、压缩和加密算法引擎等功能。相较于Dayton Peak,Mackay Peak新增了虚拟化、RDMA、Falcon技术、FIPS 140-3认证(仅SoC)以及可信平台模块2.0等特性。Mackay Peak采用PCIe 4.0 x16接口,支持1x 200GbE或2x 100GbE连接,具备双QSFP56连接器和一个RJ-45管理网络接口,总功率为75W,配备被动散热器并需要气流冷却。内存配置为48GB LPDDR4x,存储方面支持M.2 SSD。; 适合人群:对高性能网络适配器和IPU技术感兴趣的IT专业人士、数据中心管理员和网络工程师。; 使用场景及目标:①部署于高带宽、低延迟需求的数据中心环境;②实现高效的数据包处理与网络安全保护;③利用硬件加速功能减轻主机CPU负担,提高系统整体性能。; 其他说明:Mackay Peak预计于2024年第三季度提供样品,第四季度量产。其操作系统支持Rocky Linux和Red Hat 9.2,固件和软件支持正在持续更新中。此外,该产品符合FCC Class A EMI标准,工作温度范围为0-45°C。

2025-07-12

【5G通信技术】基于AIML的英特尔平台优化:动态无线资源管理与节能方案设计

内容概要:本文介绍了将人工智能与机器学习(AIML)技术应用于5G网络及其在Intel平台上的实现。文章首先概述了现有不使用AIML的5G解决方案及其标准演进,强调了团队的工作重点,即利用符号神经网络和强化学习实现5G智能化自动化。接着探讨了三个主要问题案例:计算资源与瞬时数据之间的权衡、数据安全与隐私保护以及数据模型接口生命周期管理,并阐述了应用AIML所带来的预期收益和创新改进。具体行动方面,展示了基于AI的CPU频率缩放提高能效、大规模MIMO FDD波束管理和云游戏中的动态无线资源规划的实际测试结果。最后提出了下一步计划,包括与合作伙伴共同推进标准制定、生态系统建设和混合负载优化。 适合人群:对5G通信技术、人工智能和机器学习感兴趣的科研人员和技术开发者,尤其是那些关注智能网络优化及其实现方法的专业人士。 使用场景及目标:①了解当前5G技术的发展现状和未来趋势;②掌握如何利用AIML提升5G系统的性能和服务质量;③探索在实际应用场景如能源节约、波束管理和云游戏中实施AI的具体方案。 其他说明:文中提到的多个案例均已在Intel平台上进行了验证,证明了AI技术在5G领域的有效性和潜力。此外,还呼吁业界各方积极参与到AIML在5G-A/6G标准的研究和试验中来,共同推动技术进步。

2025-07-14

【网络与边缘计算】CES定制代码发布流程解析:组件变更与新组件创建的合规性管理及应用

内容概要:本文档详细介绍了Intel公司网络与边缘集团(Network and Edge Group)在CES定制代码发布过程中遇到的问题及解决方案。文档主要讨论了针对轻量级脚本或代码发布的支持流程,包括单个组件变更、多个现有组件变更、新组件添加的具体步骤。具体涵盖了从Git仓库查找、分支创建、代码修改提交到最终构建发布的一系列操作指南。此外,文档还特别强调了代码合规性和许可证管理的重要性,如通过Protex、Coverity和BDBA扫描确保代码安全与合规,并介绍了如何处理客户定制需求(如PCIe RX Margin脚本)。最后总结了跨团队协作的经验教训,以及未来优化CES定制发布流程的方向。 适合人群:具有一定的软件开发经验,尤其是对Intel内部开发流程有一定了解的研发人员和技术管理人员。 使用场景及目标:①需要快速支持概念验证(POC)、数据收集与分析、客户错误修复等场景下的轻量级代码发布;②掌握Intel内部组件管理和项目工具(如SCM工具、Project Tool)的使用方法;③理解并实施代码变更时的合规性检查和许可证管理流程。 阅读建议:由于文档涉及大量Intel内部工具和流程,建议读者在实际操作前仔细阅读并结合相关工具进行实践。对于许可证管理和合规性检查部分,建议与项目经理或合规代表密切沟通,确保所有操作符合Intel内部规定。

2025-07-10

网络安全ReDMArk:绕过RDMA安全机制的攻击与防御策略分析-针对InfiniBand和RoCE架构的深入研究

内容概要:本文探讨了远程直接内存访问(RDMA)技术在数据中心和云计算环境中的安全性问题。研究发现,当前基于InfiniBand(IB)和RDMA over Converged Ethernet(RoCE)的架构存在多个安全漏洞,包括但不限于内存保护密钥(rkey)的可预测性、队列对(QP)编号的顺序分配、缺乏加密和认证机制等。文章详细分析了这些漏洞,并展示了如何利用它们实施攻击,如包注入、拒绝服务(DoS)、未授权内存访问等。此外,作者还提出了多种缓解措施,包括随机化QP编号和rkey、使用硬件计数器检测异常、引入端到端加密等。 适合人群:从事网络安全研究的专业人员、数据中心和云计算环境的系统管理员、对RDMA技术及其安全机制感兴趣的高级开发人员。 使用场景及目标:①帮助研究人员理解RDMA技术的安全弱点,为后续研究提供参考;②指导系统管理员评估现有RDMA部署的安全风险并采取相应防护措施;③为开发人员提供改进RDMA应用安全性的具体建议。 其他说明:本文不仅揭示了RDMA技术存在的安全隐患,还通过实验验证了攻击的可行性,并提出了一系列切实可行的缓解方案。随着RDMA技术在高性能计算和云计算领域的广泛应用,确保其安全性变得至关重要。

2025-07-15

【电信基础设施】OTII标准演进与应用:边缘计算服务器在5G和AI场景下的部署与发展综述

内容概要:本文主要介绍了开放电信IT基础设施(OTII)的发展历程、产品规格以及应用场景。OTII项目自2017年启动以来,已发布多个版本的1U、2U和OTII-E服务器规范,并有多家厂商推出了相应的产品。OTII服务器适用于多种边缘计算场景,如5G小基站、边缘数据中心、电力控制站、风电场、工业制造和边缘网关等。此外,OTII还支持AI推理任务,提供了不同精度级别的性能数据。; 适合人群:对边缘计算、电信基础设施及服务器技术感兴趣的工程师和技术管理人员。; 使用场景及目标:①了解OTII服务器的规格和发展历程;②掌握OTII在5G、边缘计算和AI等领域的应用案例;③评估OTII服务器在特定业务场景下的适用性和性能表现。; 其他说明:OTII项目由英特尔主导,联合多家厂商共同制定标准,旨在为电信行业提供标准化、模块化和高性能的边缘计算解决方案。文中提到的具体性能数据和市场预测有助于进一步理解OTII的技术优势和市场潜力。

2025-07-14

【工业自动化】开放过程自动化(OPA)标准与英特尔边缘控制技术:推动工业控制系统互操作性和安全性发展

内容概要:本文介绍了开放流程自动化(OPA)及其标准O-PAS的发展背景、目标和现状。面对工业控制系统面临的数字化转型挑战,如需要集成更多更好的数据、预测性维护、边缘分析等需求,传统的专有接口限制了应用和技术的灵活性。为解决这些问题,OPA提出了基于标准、开放、安全、互操作性强的过程控制架构。O-PAS标准旨在提高整个生命周期内的工业控制系统的效益,通过定义标准化接口减少升级或替换成本,增加技术插入的价值,设计适应性的网络安全措施。此外,文章还提到了英特尔对OPA的支持与贡献,包括提供Edge Controls for Industrial解决方案,以及参与技术工作组并推动分布式控制节点(DCN)的参考实现。 适合人群:从事工业自动化领域的工程师、技术人员、系统集成商、供应商和最终用户等。 使用场景及目标:①评估现有工业控制系统是否可以采用O-PAS标准进行改造或新建项目;②了解如何利用开放标准打破供应商锁定,提升系统的互操作性和安全性;③探索英特尔提供的技术支持和服务,以加速O-PAS相关产品的开发与部署。 其他说明:文中展示了多个实际案例和测试床的应用情况,强调了行业合作的重要性,并指出了未来发展的方向,如应用程序可移植性、物理平台优化等。同时,也提及了O-PAS认证计划,确保不同供应商的产品能够无缝协作,形成一个多厂商市场。

2025-07-14

边缘计算英特尔实时边缘解决方案:工业控制与混合关键性工作负载优化设计英特尔在实时边缘

内容概要:本文介绍了英特尔在边缘计算领域提供的实时解决方案,旨在满足工业自动化和智能制造的需求。文章首先阐述了实时系统的关键性能指标,如及时性、时间同步、延迟和抖动等概念,并强调了确定性和高性能的重要性。接着介绍了英特尔平台的增强特性,包括硅片级别的优化(如PCIe虚拟通道、内存缓存分配技术)、操作系统和虚拟化技术支持(如Linux Preempt RT、TSN驱动程序)。此外,还展示了多个应用场景,如虚拟化PLC、运动控制、计算机视觉等,并通过具体案例研究(如锂电池制造自动化、芯片定位视觉系统)来说明这些技术的实际应用效果。最后,提供了一套易于使用的工具包,帮助开发者配置和优化系统以达到实时要求。 适合人群:从事工业自动化、智能制造及相关领域的工程师和技术人员,尤其是那些需要处理混合关键性工作负载的专业人士。 使用场景及目标:①理解并实施时间敏感网络(TSN)和其他实时技术,确保不同类型的任务能够在规定的时间窗口内可靠执行;②利用英特尔平台提供的硬件和软件优化功能,提高系统的确定性和性能;③通过参考代码和库加速特定市场和用例的应用开发,如PLC、机器人和工业视觉系统。 其他说明:文中提及的技术和解决方案适用于多种操作系统和硬件平台,支持快速配置和调优,以满足严格的实时性能需求。

2025-07-14

【OpenVINO性能优化】性能提示与线程调度设置:CPU推理优化配置及应用场景分析

内容概要:本文档详细介绍了OpenVINO中的性能提示(Performance Hints)及其线程调度机制。性能提示是自2022.1版本起引入的高级属性,旨在为CPU推理提供配置性能的未来兼容解决方案。文档对比了高级属性与低级属性的区别,并解释了它们在不同平台(如Hybrid Core、Two Sockets XEON、ARM)和操作系统(Linux、Windows、MacOS)上的应用。对于Hybrid Core,默认延迟模式仅创建一个流,不使用逻辑核心处理器,而吞吐量模式则尝试在所有处理器上创建多个流以并行运行多个推理请求。文档还提供了具体示例,包括MTL 6+8+2架构下的设置,以及XEON平台的默认设置。此外,文档强调了默认设置基于数百个KPI模型的GEOMEAN计算,可能不是特定模型的最佳配置。 适合人群:对OpenVINO框架有一定了解,特别是关注CPU推理性能优化的研发人员和技术专家。 使用场景及目标:①了解如何使用高级性能提示配置CPU推理性能;②掌握不同平台和操作系统下性能提示的具体配置方法;③理解延迟模式和吞吐量模式在Hybrid Core和XEON平台上的差异及应用场景。 阅读建议:此文档主要面向内部使用,内容涉及大量技术细节和配置参数。读者应具备一定的OpenVINO和CPU架构基础知识,在阅读时可以结合实际项目需求进行配置调整和优化实践。

2025-07-14

【数据中心存储】基于Intel IPU的Cassandra集群优化:Apple大规模分布式数据库性能提升与成本降低方案探讨

内容概要:本文档是关于Intel内部技术培训系列中,针对Apple使用IPU(智能处理单元)构建Cassandra集群数据库服务器的PoC(概念验证)。文档详细介绍了IPU在存储用例中的应用,包括NVMe、NVMe/TCP和TCP协议的支持,以及IPU在存储路径加速、虚拟化层提供、内联加密等方面的作用。特别关注了Apple为何选择构建基于IPU的Cassandra集群,主要原因是现有Xeon服务器部署存在利用率低、成本高、复杂度高等问题。文档还展示了六节点Cassandra集群的搭建过程,涉及硬件配置、软件环境设置、性能调优等多方面内容。此外,文档强调了通过性能测试和调优,目标是达到10ms以内的P99尾延迟,并进一步优化到5ms以内。 适合人群:具备一定云计算、存储技术和分布式系统基础的技术人员,尤其是对IPU和Cassandra集群有兴趣的研究人员和工程师。 使用场景及目标:①了解IPU在云规模存储解聚、裸金属托管、高性能存储路径加速等方面的应用;②掌握Apple如何利用IPU降低成本和功耗,提高Cassandra集群的效率;③学习六节点Cassandra集群的具体搭建步骤和技术细节;④理解如何通过性能调优,使集群达到更高的性能指标。 其他说明:文档中提到的所有技术细节和测试数据均为原型阶段的结果,未来可能有进一步的优化和改进。此外,文档还提到了未来的计划,如增加内存容量、引入集群监控工具等,以支持更大规模的部署和更高效的运维。

2025-07-11

【网络硬件加速】96M精确匹配规则卸载方案:状态网关中大规模会话状态管理与硬件加速设计

内容概要:本文介绍了Intel的96百万精确匹配规则卸载技术(96 Million Exact Match Rule Offload),旨在满足状态化网关(如负载均衡器、NAT等)对高性能数据包处理的需求。该技术利用MEV FXP硬件加速引擎,支持高达96百万条精确匹配规则的卸载,同时通过硬件与软件协同工作来管理会话老化(aging)。由于硬件限制,如IPU DDR容量和老化计数器数量,最大会话数被限制为16百万。为解决这一限制,提出了一种两阶段镜像/采样机制,以提高老化管理的准确性并减少带宽消耗。此外,文档还详细描述了DDR内存重新分配方案以及通过P4SDE构建的演示应用程序,展示了如何在实际环境中部署和测试这项技术。; 适合人群:网络工程师、系统架构师、DPU开发者,特别是对高性能网络设备和硬件加速技术感兴趣的读者。; 使用场景及目标:①适用于需要处理大量精确匹配规则的状态化网关设备;②帮助理解Intel MEV FXP硬件加速引擎的工作原理及其在高并发环境下的性能表现;③提供具体的实施路径和技术细节,以便在实际项目中应用。; 其他说明:读者应结合自身需求和技术背景进行深入研究,并注意遵守相关保密协议。

2025-07-10

硬件管理基于Redfish协议的IPU服务器实现规划:IMC与ACC更新及安全管理接口设计

内容概要:本文档概述了Intel公司IPU Redfish服务器的实施计划及其关键特性。Redfish服务器旨在为IPU提供管理功能,通过逐步实现包括支持Redfish协议的IPU SDK基线、系统信息检索、安全启动和验证等功能。文档详细介绍了IMC Redfish服务器的三个阶段实施计划,涵盖了从初步支持到最终生产版本的各个步骤。此外,文档还列举了具体的使用案例,如IMC和ACC镜像更新,并提供了相关的API端点。最后,文档讨论了当前面临的挑战,如内存管理和安全性期望,并列出了下一步的工作方向,包括确保解决方案达到生产就绪状态以及扩展Redfish功能。 适合人群:对服务器管理技术有一定了解的技术人员,特别是从事IPU或Redfish相关工作的工程师。 使用场景及目标:①了解IMC Redfish服务器的实施进度和关键功能;②掌握IMC和ACC镜像更新的具体API端点;③解决内存管理、安全性配置等实际问题,推动Redfish解决方案的进一步发展。 其他说明:文档提到目前Redfish服务器仍处于原型质量阶段,预计在2024年9月初正式发布1.8版本。同时,文档强调了证书配置的重要性,并指出了一些尚未解决的问题,如缺乏参考ISO镜像和安装程序。

2025-07-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除