DPDK学习——cache相关知识③

最新推荐文章于 2025-09-13 02:40:32 发布

原创

最新推荐文章于 2025-09-13 02:40:32 发布 · 2.2k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#DPDK #深入浅出DPDK

本文深入探讨了DPDK中与cache相关的话题，包括cache预取原理，如时间、空间局部性和预取指令，以及在处理报文过程中的应用。同时，文章讲解了cache一致性问题，如cache line对齐和MESI协议，强调了DPDK如何通过避免数据共享来确保cache一致性。

4. cache预取

背景：cache操作对大多数程序员透明，但当对程序执行效率有很高要求的时候，程序员可以一定程度上控制cache。

4.1 Cache局部性

①时间局部性：程序即将用到的指令或数据，可能就是目前正在使用的指令或数据，可以在当前的指令数据使用完后暂存在cache中。典型的例子就是for循环。

②空间局部性：程序即将使用的指令或数据可能与目前正在使用的指令或数据在空间上相邻或相近。所以可以在处理当前指令数据时，把内存中相邻区域的指令或数据也读到cache里。典型的例子就是处理数组。

4.2 预取

NetBurst架构硬件预取：有两个硬件预取单元，分别对应数据和指令，激活后可以自动预取下一个cache line的数据。预取只发生在同一个页内，不会预取到其他页。

实例：对二维数组arr[1024][1024]赋值

for(int i = 0; i < 1024; i++)
{

for(int j = 0; j < 1024; j++)

arr[i][j] = 1;

}

for(int i = 0; i < 1024; i++)
{

for(int j = 0; j < 1024; j++)

arr[j][i] = 1;

}

左边的在内存中顺序访问，硬件可以识别规律，完成预取，提高效率。而右边的代码对内存的访问时

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

HelloNerd

关注关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【重识云原生】第四章云网络4.9.3.2节——DPDK原理详解

junbaozi的专栏

07-14

1409

相对传统的基于内核的网络数据处理，dpdk 对从内核层到用户层的网络数据流程进行了重大突破，DPDK拦截中断，不触发后续中断流程，并绕过协议栈，通过UIO技术将网卡收到的报文拷贝到应用层处理，报文不再经过内核协议栈。减少了中断，DPDK的包全部在用户控件使用内存池管理，内核控件与用户空间的内存交互不用进行拷贝，只做控制权转移，减少报文拷贝过程，提高报文的转发效率。.........

【重识云原生】第四章云网络4.9.3.1节——DPDK技术综述

junbaozi的专栏

07-13

1423

数据平面开发套件(DPDK[1],Data Plane Development Kit)是由6WIND,Intel等多家公司开发，主要基于Linux系统运行，用于快速数据包处理的函数库与驱动集合，可以极大提高数据处理性能和吞吐量，提高数据平面应用程序的工作效率。.........

参与评论您还未登录，请先登录后发表或查看评论

DPDK-Cache和内存优化点

3-Number

11-13

1776

0x01 缘由在一篇博文中看到false-sharing问题（多核编程中伪共享问题），引发了我对DPDK内存和Cache的思考和学习。看看这些知识点，大部分都是计算机组成原理和操作系统的知识点，如果做系统编程，这些知识点不能还给大学老师。 0x02 概念南桥：系统I/O芯片（SI/O）：主要管理中低速外部设备；集成了中断控制器、DMA控制器、PCI网卡等。北

DPDK学习——cache相关知识①

HelloNerd的博客

05-25

758

1. cache系统1.1 出现原因：内存性能对于CPU来说仍然很慢，处理器从内存中读数据多达上百个时钟周期，这几个周期里，处理器只能等待。所以提出了Cache以匹配处理器与内存之间的巨大速度鸿沟。1.2 三级cache：一级cache一般分为数据cache和指令cache，3~5个指令周期就能访问到数据，一般只有几十K；二级cache中数据和指令无差别的放在一起，需要十几个处理器周期访问到数据，...

彻底搞懂Linux内核CPU缓存行对齐：cacheline_aligned_in_smp技术原理与实战

最新发布

gitblog_00267的博客

09-13

346

在多处理器（SMP）系统中，CPU缓存行（Cache Line）竞争是导致性能损耗的隐形瓶颈。当多个CPU核心同时访问同一缓存行时，会引发大量的缓存一致性流量（Cache Coherency Traffic），这种现象被称为**缓存颠簸（Cache Thrashing）**。Linux内核通过`cacheline_aligned_in_smp`宏实现数据结构的缓存行对齐，从硬件层面规避了90%以上...

dpdk cache 总结

shaoyunzhe的专栏

11-22

1840

cpu cache 系统 D-cahe：数据cache I-cahe：指令cache cache 系统示意图成本容量访问周期一级cache 最高一般几十Kb

DPDK中的Cache优化

Dgh19940的博客

03-18

4641

高负载下的网络数据包处理是一种I/O密集型工作负载。CPU，DMA，以及内存（Cache+DRMA）都会频繁访问。DPDK利用了一系列的Cache软件优化方法（cache预取，cache对齐，hugepage ，NUMA感知，DDIO）高效的减少访存开销以提升性能。本文将讲解这些方法的基本原理以及在DPDK中的应用。1：Cache预取Cache由于时间以及空间上的局部性能提高相当的性能，所谓的Ca...

DPDK如何针对cache提高性能

HelloNerd的博客

05-25

1033

DPDK学习——cache相关知识④

HelloNerd的博客

05-25

1085

6. TLB和大页6.1 TLB如前所说，TLB也是一种cache，用于存放页表项的cache，方便快速完成逻辑地址到物理地址的转换。6.2 大页但是一个常规页4k，假设一个程序用了512页，总共2MB，这就需要TLB里至少方下512个页表项才能保证每次都能命中，但TLB大小有限。所以为了减少TLB不命中的情况，可以使用大页，以1G为单位进行分页。7. DDIO7.1 提出DDIO的背景/原因①随...

深入浅出DPDK学习笔记（1）—— 学习的目的

superbfly的专栏

10-15

760

深入浅出DPDK学习笔记（1）—— 学习的目的我的目的我的计划我的目的之前通读过《深入浅出DPDK》这本书，可以说正式这本书把我带到了DPDK大门前。虽然我还只是一只脚刚刚跨过门槛的初学者，但对于门后的世界却充满了向往。以我浅薄的认知，我很难想象DPDK会为世界带来怎样的改变，但无论怎样，我对它的热情不会变。这个笔记系列，我把它当做近段时间学习的整理与总结，同时也作为自己一路走来学习心得的记录。在漫长的学习整理过程中，我深刻的明白了一个道理，“一些你认为常识性的东西，可能正是其他人苦苦寻找的答案”，因

S32K3学习笔记—链接文件及启动代码相关

Abler_xaing的博客

10-22

7411

S32K3启动文件及链接文件相关

计算机内存管理之内存访问

qq_28499879的博客

05-16

3232

文章目录一、设备I/O内存访问ioremap & ioremap_nocacheioremap_cachedioremap_wc & ioremap_wtI/O内存访问流程二、设备地址映射到用户空间mmap过程一、设备I/O内存访问在linux上电时，并不会为外设地址空间建立页表。但我们知道，linux访问内存使用的都是虚拟地址，因此如果想访问外设的寄存器（一般包括数据寄存器、控制寄存器与状态寄存器），需要在驱动初始化中将外设所处的物理地址映射为虚拟地址，使用ioremap接口可以实现

DPDK关键技术学习笔记

a3876247995的博客

05-22

1515

文章目录cache预取技术技术1.cache提升性能原理2.硬件预取和软件预取3.DPDK中的cache预取cache一致性1.cache line对齐2.cache一致性问题的由来3.cache一致性协议4.DPDK保证cache一致性TLB和大页内存技术DDIO技术NUMA技术 cache预取技术技术 1.cache提升性能原理 cache对于大多数程序员是透明的，cache之所以对性能有提升，主要体现在：时间局部性：程序即将使用的数据，和当前的正在使用的数据有重叠，比如for循环中会重复使用相同的

cache一致性问题

process的专栏

10-22

9442

这周碰到的一个问题，在解决的过程中得到不少高手的热心帮助，把一些总结贴出来，欢迎大家指点。写一个屏驱动的时候，需要把一块内核中用kmalloc分配的内存映射到应用层中使用。这是一个很simple的需求，很轻松的就可以通过mmap搞定：驱动部分代码： 1698 if((mmap_addr = kmalloc(PAGE_SIZE, GFP_KERNEL)) == NU

申请noncache内存

zf1575192187的专栏

04-02

3705

申请内存提供给用户态，nocache static int shm_mmap(struct dma_buf *dmabuf, struct vm_area_struct *vma) { struct tee_shm *shm = dmabuf->priv; size_t size = vma->vm_end - vma->vm_start; v...

《深入浅出DPDK》—第2章2.6节Cache一致性

weixin_34061482的博客

05-02

702

本节书摘来自华章出版社《深入浅出DPDK》一书中的第2章，第2.6节Cache一致性，作者朱河清，梁存铭，胡雪焜，曹水等，更多章节内容可以访问云栖社区“华章计算机”公众号查看。 2.6　Cache一致性我们知道，Cache是按照Cache Line作为基本单位来组织内容的，其大小是32（较早的ARM、1990年～2000年早期的x86和PowerPC）...

DPDK系列之二十六缓冲Cache的管理

fpcc的专栏

07-30

554

其实从上面分析来看，不管采用何种手段，目的只有一个，流水线作业要尽量保证流水不停不乱。这样，就可以高效率的生产和处理数据。这种数据处理型的软件框架，最重视的就是这些，只要数据保持了流水按照意图前进，就达到了设计目的。毕竟，只要有了外在的干预，这个干预时间对CPU来说就是一个超长的时间周期，那么效率已经就不再乎了。而在没有干预的情况下，就必须保证数据最大的流水。比如下载网络数据，在线观看视频，在线视频会议等等。

深入浅出DPDK学习笔记（3）——— Cache和内存

superbfly的专栏

10-20

2977

深入浅出DPDK学习笔记（3）——— Cache和内存系统架构的演进Cache系统简介Cache的种类TLB CacheCache地址映射和变换全关联型Cache直接关联型Cache组关联型CacheCache的写策略Cache预取Cache的预取原理软件预取软件预取指令DPDK中的预取Cache一致性Cache Line对齐Cache一致性问题的由来一致性协议MESI协议DPDK如何保证Cache一致性TLB和大页逻辑地址到物理地址的转换TLB使用大页如何激活大页DDIONUMA系统系统架构的演进在经

dpdk 程序如何配置网卡收发包队列描述符配置？

龙瑜的博客

11-06

1927

网卡收发包队列描述符配置看似是一个小的配置，其背后也有诸多细节。如何确定一个最优的配置常常不是一个容易的问题，需要对现有的实现跟底层原理有相对清晰的了解，既知道哪种配置是最优的，也知道为啥它是最优的，这点就相对有些难度了。