一、Nvidia Jetson Xavier NX官方介绍
Nvidia官网给出的Jetson Xavier NX算力为21TOPS,官网给出的表格信息如图1-1所示。
图1-1 算力图
二、TOPS和TFLOPS性能指标简介
TOPS(Tera Operations Per Second)和TFLOPS(Tera Floating Point Operations Per Second)是衡量GPU计算能力的两种不同单位。
2.1 定义
TOPS:TOPS是指每秒处理器可以执行的万亿次(10^12)操作,这些操作可以是整数、浮点数或其他类型的计算。
TFLOPS:TFLOPS专指每秒可执行的万亿次浮点运算,专注于浮点运算的性能。
2.2 精度类型
TOPS:TOPS不仅限于浮点运算,还包括整数(INT8)和定点运算,适用于对精度要求不如浮点运算高的场景。
TFLOPS:TFLOPS专门衡量浮点运算能力,包括单精度(FP32)和半精度(FP16)计算,适用于需要高精度计算的任务。
2.3 计算能力换算
理论峰值 = GPU芯片数量 * GPU Boost主频核心数量 * 单个时钟周期内能处理的浮点计算次数。
对于Jetson Xavier NX 中GPU的理论计算能力为:单精度理论峰值FP32 = CUDA Cores * GPU Boost Clock * 2 = 384 * 1.0 GHz * 2 = 768 GFLOPS(通过cuda_runtime提供的API可以验证理论正确)。
2.4 Tensor Core的运算能力
NVIDIA Tensor Cores 是专门设计用于加速矩阵运算的硬件单元,它们能够执行 FP16 和 INT8 运算,但在每个时钟周期中它们可以处理的运算数量会有差异:
- 在 FP16 模式下,Tensor Cores 执行浮点数运算,它们可以处理较为复杂的运算(浮点数涉及到指数和小数部分),但计算量相对较大。一个 Tensor Core 可以在一个时钟周期内执行多个 FP16 的乘法和加法