Xilinx ZYNQ Ultrascale+ 性能测试之 Memory Stream

最新推荐文章于 2024-10-18 16:27:58 发布

原创

最新推荐文章于 2024-10-18 16:27:58 发布 · 540 阅读

0 ·

CC 4.0 BY-SA版权

这篇博客详细介绍了在Xilinx EV平台上使用LMBENCH测试工具测量内存带宽和机器平衡的结果，包括COPY、SCALE、ADD和TRIAD操作的性能指标，并讨论了CPU频率、TLB、并行运算能力及系统配置对性能的影响。

John McCalpin “Memory Bandwidth and Machine Balance in High
Performance Computers”, IEEE TCCA Newsletter, December 1995
http://www.cs.virginia.edu/stream/

Xilinx 4EV 上用自带LMBENCH测试结果如下：

# stream
STREAM copy latency: 3.84 nanoseconds
STREAM copy bandwidth: 4168.29 MB/sec
STREAM scale latency: 7.07 nanoseconds
STREAM scale bandwidth: 2261.80 MB/sec
STREAM add latency: 10.24 nanoseconds
STREAM add bandwidth: 2343.75 MB/sec
STREAM triad latency: 12.64 nanoseconds
STREAM triad bandwidth: 1899.34 MB/sec

意义如下：

STREAM: measure memory bandwidth with the operations:
– Copy: a(i) = b(i)
– Scale: a(i) = s * b(i)
– Add: a(i) = b(i) + c(i)
– Triad: a(i) = b(i) + s * c(i)

LMBENCH 的其他测试结果如下

# mhz
1199 MHz, 0.8340 nanosec clock
# tlb
tlb: 10 pages
# par_ops
integer bit parallelism: 2.65
integer add parallelism: 1.82
integer div parallelism: 1.00
integer mod parallelism: 2.27
int64 bit parallelism: 1.24
int64 add parallelism: 1.82
int64 div parallelism: 1.00
int64 mod parallelism: 1.93
float add parallelism: 7.86
float mul parallelism: 7.90
float div parallelism: 1.30
double add parallelism: 7.86
double mul parallelism: 7.90
double div parallelism: 1.16
#lat_unix
AF_UNIX sock stream latency: 16.0409 microseconds

自己下载 stream.c
编译 aarch64-lin