全面优化你的memcpy！

最新推荐文章于 2025-06-17 13:40:04 发布

maimang09

最新推荐文章于 2025-06-17 13:40:04 发布

阅读量9.4k

点赞数 1

分类专栏： C语言文章标签：优化汇编测试 linux 语言 n2

C语言专栏收录该内容

40 篇文章

订阅专栏

本文介绍了BlackFin处理器上全局中断的关闭与开启方法，并提供了一种针对SDRAM至SDRAM数据搬移的memcpy函数优化方案。通过将数据先搬移到L1缓存后再进行最终搬移，可以有效提升效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

http://blog.21ic.com/user1/2092/archives/2006/8095.html

在BlackFin上面关全局中断其实是很麻烦的事.它不是清除或者设置一个全局中断使能位,而是把core中断屏蔽寄存器所有位都清成0,这个时候你需要设置一个变量来保存以前在core中断屏蔽寄存器中的值,以便后面恢复，这里我给出前段时间写的两个函数。由于BlackFin的特殊硬件结构，只要你想，可以优化一下它，使用能并行执行的指令。

static inline void disable_interrupt(void *ptr)
{
    asm("P0 = R0;");
    asm("CLI R0;");
    asm("[P0] = R0;");

}

static inline void enable_interrupt(void *ptr)
{
    asm("P0 = R0;");
    asm("R0 = [P0];");
    asm("STI R0;");

}

    另外，在系统设计中，我们经常会用到memcpy函数，尤其是在管理循环缓存时（这时可能就没有DMA能给你使用了，呵呵！）。移动的数据量很大，这时高效率的memcpy就很是重要了。对于SDRAM-->SDRAM的数据搬移，当需要memcopy函数传输超过35个字的时候，先把SDRAM中的数据搬到L1中暂存，然后搬到目的SDRAM中，这样效率会更高，这里我提供了一个在C语言级别优化memcpy函数的例子：

void memcopy(void *dest, const void *src, int size)
{
    #define L1_BUFF 2048
    long temp_array[L1_BUFF/sizeof(long)];

    while(size/L1_BUFF){
        memcpy(temp_array, src, L1_BUFF);
        memcpy(dest, temp_array,L1_BUFF);
        src = (void *)((char *)src + L1_BUFF)；
        dest = (void *)((char *)dest + L1_BUFF)；
        size -= L1_BUFF;
    }

    memcpy(temp_array, src, size);
    memcpy(dest, temp_array,size);


}
    熟悉C的都知道，定义的局部变量数组是在堆栈里面分配内存的，另外为了函数调用和中断的快速上下文切换的快速效率着想，堆栈一般是放在CPU内部的sram里面的，访问速度是core clk，所以temp_array就是在sram里面分配内存的。在使用循环缓存的管理函数的系统中，调用memcopy函数的函数一般都是比较靠顶层的函数，所以你使用了这个函数也不会对你构建的系统的堆栈空间提出更多的要求。（例如我前段日子做的MP4播放器，就几乎没有影响到原来的堆栈空间的size）。下面我来说说这段程序的设计原理：
有BF533硬件参考书的人可以翻到7-11的表，说到：16-bit SDRAM——>L1 Data memory的搬移n字的数据需要n+14个系统时钟周期，而反过来搬移n个字需要n+11个系统时钟周期，SDRAM——>SDRAM n字数据搬移需要10+（17n/7）个系统时钟周期。看到这里大家可以发现，SDRAM到SDRAM的n个字的数据搬移比L1到SDRAM和到L1的数据搬移同样n个字所花的系统时钟周期的总和还多，这样我们可以很方便的建立一个不等式：
    （17/7）n+10 > 2n+25
得n > 35时，对于SDRAM至SDRAM的数据搬移，改成先SDRAM至L1，然后L1至SDRAM的搬移效率会提高一些。这是理论值，实际的有些偏差。
    为什么会出现这种情况呢？感兴趣的可以去查看SDRAM的原理中的突发模式，这里我就不多说了。下面给出我的测试数据：
CCLK=594MHz，SCLK=118.8MHz

在传输10000字节时memcpy函数花费的时间是memcopy的1.92倍；
1000字节时为1.12倍，传输10000字节时更是在2.28倍之多。
可见熟悉了硬件原理，优化真的就是无止尽！

后记：上面测试的memcopy函数与系统提供的memcpy函数的性能比值是在堆栈分配在数据L1里面的时候得到的。前些天，我把堆栈放在scratch sram里重新测试了一下，在传输大于1000字节的数据时，memcopy的性能是memcpy的约1.6倍：在1.59至1.63被之间。

并给出Linux下嵌入汇编的函数设计风格的开关全局中断函数：
static inline void disable_interrupt(void *ptr)
{
    __asm__ __volatile__
    (
    "P0 = %0;"
    "cli %0;"
         "[P0] = %0;"

    :
    : "r" (ptr)

    );

}

static inline void enable_interrupt(void *ptr)
{
    __asm__ __volatile__
    (
    "P0 = %0;"
    "%0 = [P0];"
         "STI %0;"

    :
    : "r" (ptr)

    );

}

效率会底一点。

----------------------------------------------------------------

http://bbs.unixbeta.com/archiver/tid-50260.html

使用库函数的memcpy会有优化，如果count是4的倍数，会直接使用rep movs指令做复制，即便不是4的倍数，也会先用rep movs指令复制，不足部分再用字或字节复制补齐。因为复制是4字节一个单位，所以可以效率提高很多。
而rep movs必定是从低到高的，不过memcpy对高到低还是低到高没有绝对的规定，如果是memmove，他会根据实际情况来选择是从低到高复制还是相反，因为复制源和目标可能会有重叠部分，这时候顺序就很重要了，使用memmove总是可以安全的进行复制。
VC的memcpy与memmove基本相同，有重叠部分也可以做到安全复制。

对不同的cpu，应该优化的方法不一样，比如有些支持多字节传送指令的
但最起码的一点，就是要字拷贝

优化：比如可以转换为int等机器字类型的指针来复制可以显著提高效率

优化memcpy一定要站在CPU的角度。比如一次复制寄存器宽度的数据。
什么assert啊都没有必要。可以看看glibc中的相关汇编代码。