neon s16 8x8 系数矩阵转置

NEON汇编优化之8x8矩阵转置

最新推荐文章于 2024-09-09 09:19:18 发布

原创最新推荐文章于 2024-09-09 09:19:18 发布 · 4k 阅读

0 ·

CC 4.0 BY-SA版权

NEON 专栏收录该内容

10 篇文章

订阅专栏

本文介绍了一段NEON汇编代码，该代码实现了s16类型8x8系数矩阵的转置操作。通过特定的加载指令和一系列的数据交换指令，有效地完成了矩阵的转置，为后续的视频解码提供了高效的数据处理方式。

以下代码的功能是实现 s16 类型的 8x8 系数矩阵的转置。在NEON汇编优化视频软解的过程中，该过程能很方便地将数据处理成适合NEON优化的排列方式：

/* step 0 : load data
/* Q4 - Q11 */
vld1.16		{q4,q5},		[r1]!
vld1.16		{q6,q7},		[r1]!
vld1.16		{q8,q9},		[r1]!
vld1.16		{q10,q11},		[r1]!

/* step 1 : transpoese 8X8 matrix */
VTRN.16 q8, q9
VTRN.16 q10, q11
VTRN.16 q4, q5
VTRN.16 q6, q7
VTRN.32 q8, q10
VTRN.32 q9, q11
VTRN.32 q4, q6
VTRN.32 q5, q7

VSWP	d9,	d16
VSWP 	d11,	d18
VSWP	d13,	d20
VSWP	d15,	d22