在用NEON处理输入数据时,剩余数据不足以填满一个NEON寄存器时的处理

例如,考虑一个包含21个数据元素的输入数组,每个元素是一个16位整数。您希望使用Neon来处理这个数组中的数据。Neon寄存器有128位宽,所以一次可以处理8条16位的数据通道。在两次迭代中,Neon代码可以处理16 (2 x 8)个数据元素。然而,这留下了5个剩余的数据元素要在最后的迭代中处理。这五个剩余的数据元素不足以完全填满一个Neon寄存器。

1.用填充扩展数组

如果可以更改数组的大小,则可以使用填充元素将数组的长度增加到向量大小的下一个倍数。这允许您在不损坏相邻存储的情况下读取和写入超出数据末尾的数据。

image-20231207160958682

限制:要注意选择不影响计算结果的填充值,否则放弃该方法。比如:要对数组值求和,可以使用零填充值;如果正在查找数组中的最小值,可以使用数据元素可以包含的最大值的填充值。

2.重叠数据元素

重叠意味着对数组中的某些元素处理两次。在示例案例中,使用重叠的迭代将遵循以下步骤:

1.第一次迭代处理元素0到7。

  1. 第二次迭代处理元素5到12。

  2. 第三个也是最后一个迭代处理元素13-20。

也就是说,元素5到7(即第一个向量和第二个向量之间的重叠部分)被处理两次。

image-20231207160942627

限制:只有当应用于输入数据的操作不随应用操作的次数而变化时,才能使用重叠。专业术语是说这个运算必须是幂等的。例如,如果您试图查找数组中的最大元素,则可以使用重叠。这是因为最大值出现多次并不重要。但是,如果要对数组求和,则不能使用重叠。这是因为重叠的元素会被计数两次。

3.将剩余元素作为单个元素处理

Neon提供了加载和存储指令,可以对vector中的单个元素进行操作。您可以使用这些指令来加载包含一个元素的部分向量,对该部分向量进行操作,然后将该元素写回内存。

在示例中,使用单个元素的迭代将遵循以下步骤:

1.前两个迭代照常执行,处理元素0到7和8到15。

  1. 第三次迭代只需要处理5个元素。一个单独的循环处理这些元素,它加载、处理和存储单个元素。

image-20231207161124815

缺点就是这种方法比前两种方法慢。这是因为每个剩余元素都必须单独加载、处理和存储。

这三种方法可以根据您自己的特殊需要加以改进或调整,具体如下:

· 选择何时处理剩余元素

可以选择在处理数组的开始或结束时应用重叠和单元素技术,具体取决于哪个更适合应用程序。

· 地址对齐

Armv8-A体系结构允许任意排列多种类型的加载和存储访问。然而,这条规则也有例外。例如,加载和存储地址应该与缓存线对齐,以允许更有效的内存访问。

· 使用A64基指令代替Neon指令

在单元素方法中,您可以使用Arm A64基本指令和通用寄存器来操作每个单个元素,而不是使用Neon。但是,同时使用基本A64指令和Neon SIMD指令写入同一内存区域会降低性能。来自Arm管道的写操作被延迟,直到来自Neon管道的写操作完成。一般来说,你应该避免从Arm和Neon代码中写入相同的内存区域,特别是相同的缓存行。

本案例参考来自arm官方文档《neon_programmer_guide_for_armv8-a_coding_for_neon》

内容概要:本文档《Docker 新入门指南》详细介绍Docker这一开源容器化平台,旨在帮助新理解并掌握Docker的核心概念和基本操作。文中首先解释了Docker的概念及其相对于传统虚拟机的优势,如更快的启动速度、更低的资源占用和更好的隔离性。接着,文档提供了详细的安装步骤,包括不同操作系统下的安装方法以及针对国内用户的镜像加速配置。随后,文章深入讲解了镜像管理和容器操作的基础命令,如拉取镜像、运行容器等。进一步地,文档介绍了使用Dockerfile构建自定义镜像、实现数据持久化、进行端口映射以及利用Docker Compose管理多容器应用等高级技巧。最后,给出了一些学习建议和注意事项,鼓励读者动实验并关注安全性。 适合人群:适合对容器技术感兴趣的初学者,尤其是有一定Linux基础或打算深入了解Docker的开发人员。 使用场景及目标:①帮助读者快速上Docker,掌握从安装到实际操作的一系列技能;②通过实例演示,如构建Python Web服务、部署WordPress和搭建Jenkins环境,让读者能够将所学应用于实际项目中;③强调容器化的优势,如提高部署效率、解决环境差异问题。 阅读建议:建议读者跟随文档逐步操作,亲身体验每个步骤,同时参考方文档和社区资源,不断实践以巩固所学知识。特别注意安全性和资源管理方面的提示,确保容器环境的安全稳定运行。
据QYResearch调研团队最新报告“全球斗式提升机链条市场报告2024-2030”显示,预计2030年全球斗式提升机链条市场规模将达到1亿美元,未来几年年复合增长率CAGR为4.4%。 市场驱动因素: 散装物料输送行业的增长:水泥、采矿、农业和发电等行业的需求不断增长,推动了斗式提升机在垂直物料运输中的应用。基础设施建设和工业化:全球建筑活动的不断增长和工业厂房的扩张推动了对重型输送系统的需求。链式系统的效率和耐用性:链式斗式提升机因其强度高、使用寿命长而成为重型和高温应用的首选。自动化和工厂优化:采用自动化和智能控制系统可提高链式输送机的性能和运行效率。 市场制约因素: 初始安装和维护成本高:与基于皮带的替代方案相比,链式系统更昂贵且更复杂,尤其对于小型作业而言。恶劣环境下的磨损:如果不进行适当的维护,持续暴露于磨蚀性或腐蚀性材料中会导致更快的老化。某些设施的空间限制:斗式提升机的垂直设计和占地面积可能并不适合所有场地布局,从而限制了其适用性。 市场机遇: 链条材料的技术进步:耐磨耐腐蚀合金和涂层的开发延长了产品的使用寿命和可靠性。农业和食品加工行业的扩张:新兴市场对谷物处理、化肥运输和散装食品转运的需求不断增长,推动了链条的使用。现有系统的改和升级:有机会用高性能链条系统替换过时的机械部件,以提高产量。对节能输送解决方案的需求不断增长:对降低能耗的重视推动了链传动系统和铲斗设计的创新。 根据QYResearch头部企业研究中心调研,全球范围内斗式提升机链条生产商主要包括Tsubakimoto Chain、Renold、Thiele、Pewag、RUD Ketten、HEKO Group、John King Chains、B.V.Transmission Industries、Transmin、华通气动等。2024年,全球前五大厂商占有大约51.0%的市场份额。 就
内容概要:本文由麦肯锡发布,探讨了人工智能(AI)特别是生成式AI(gen AI)如何重塑组织架构及创价值。研究表明,企业正在通过重新设计工作流程、提升治理水平和应对更多与gen AI相关的风险来捕捉AI的价值。CEO对AI治理的监督与工作流的重新设计是取得财务影响的关因素。大公司正引领这一变革,它们更积极地招聘AI相关人才并进行员工再培训。此外,企业正逐步采用AI于多个业务职能,包括营销、销售、产品开发和服务运营。尽管目前大部分公司尚未看到AI对企业整体利润的显著影响,但已有迹象表明,AI的应用正在增加收入并减少成本。 适合人群:企业高管、AI项目经理、战略规划人员以及对AI技术应用感兴趣的商业人士。 使用场景及目标:①帮助企业管理层理解如何通过AI技术优化内部流程并提高效率;②为AI项目的实施提供参考,确保企业在部署AI时能够最大化其商业价值;③指导企业在风险管理、人才招聘和员工技能升级方面做出明智决策。 其他说明:随着AI技术的发展,企业需要不断调整自身结构和流程以适应新技术带来的变化。文中提到的最佳实践如建立专门团队推动AI采用、定期沟通AI价值、高层领导积极参与等做法,可以为企业成功引入AI提供有益借鉴。此外,文中还强调了AI对不同行业的影响差异,以及个人使用AI工具的趋势变化。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值