由于之前ffmpeg中hevc decoder不支持neon 64bits的优化,所以参与这部分工作。
大部分指令从这里查:
http://infocenter.arm.com/help/index.jsp?topic=/com.arm.doc.dui0802a/USHLL_advsimd_vector.html
另外还有两个文档:
ARMv8-A programming guide.pdf
ARMv8-A_Architecture_Reference_Manual_(Issue_A.a).pdf
<T> - data type, 8B/16B/4H/8H/2S/4S/2D. B represents byte (8-bit). H represents half-word (16-bit). S represents word (32-bit). D represents a double-word (64-bit).
For example:
UADDLP V0.8H, V0.16B
FADD V0.4S, V0.4S, V0.4S
这里是一个mc部分的代码,原始c函数是:put_hevc_pel_bi_pixels。汇编的做法是一次处理8个bytes的数据,一直处理到输入最后一行,然后回到第一行,水平便宜加8,处理下一列的8bytes数据。最后一列有可能有4bits的数据,单独处理
对应优化汇编以及注释解释(右边是类似C的解释):