nasm avx256实现一个点积运算

本文展示了C语言和SIMD汇编两种方式实现向量乘法的过程。C语言代码通过双指针遍历数组进行逐元素相乘求和,而SIMD汇编利用AVX指令集进行高效并行计算。通过测试,SIMD汇编的性能表现优于C语言实现。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一 C语言实现

int a[128] = {0};
int b[128] = {0};
int sum = 0;
for (int i = 0; i < 128; i++)
{
    sum += a[i] * b[i];
}

二 simd汇编实现

global dpb_8x8_uint8
dpb_8x8_uint8:
	vpmovsxbd ymm0, [rdi];
        vpmovsxbd ymm1, [rsi];
        vpmulld ymm1, ymm1, ymm0
        vmovdqu ymm2, [rdx]
	vpaddd  ymm2, ymm2, ymm1
	vmovdqu [rdx], ymm2;
	ret

c语言调用代码

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <stdint.h>
extern void dpb_8x8_uint8(uint8_t *a, uint8_t *b, uint8_t *c);

int main()
{
    uint8_t a[16] = {0};
    memset(a, 0x02, 16);
    uint8_t b[16] = {0};
    memset(b, 0x03, 16);
    uint32_t res[8] = {0};
    memset(res, 0x0, 32);
    dpb_8x8_uint8(a, b, res);

    for (int i = 0; i < 8; i++)
        printf("%d ", res[i]);
    printf("\n");
    dpb_8x8_uint8(a + 8, b + 8, res);
    printf("add again\n");
    for (int i = 0; i < 8; i++)
        printf("%d ", res[i]);
    printf("\n");
    return 0;   
}
test# ./dpb_test   
6 6 6 6 6 6 6 6 
add again
12 12 12 12 12 12 12 12 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值