47、多核处理器架构:技术解析与发展趋势

多核处理器架构:技术解析与发展趋势

1. 执行集群与GPU架构

1.1 执行集群组织

执行集群包含计算前端/管理器、图形前端/管理器、线程调度与分发、寄存器文件、本地结构、加载存储单元、纹理单元、纹理缓存、共享内存、特殊功能单元(SFU)和一级缓存(L1$)等组件。图形管线的可编程顶点、几何和像素阶段会生成3D着色器程序,这些程序都在统一核心上执行。此外,通过执行计算着色器也支持通用计算。

1.2 单指令多线程(SIMT)执行模型

GPU依赖大规模多线程来实现高吞吐量。现代GPU可同时执行超过10,000个线程,以隐藏执行单元(EU)延迟和内存访问延迟。线程以线程组的形式创建、调度和执行,线程组也被称为“warp”(NVIDIA)或“quad”(ARM)。线程组由相同类型且起始指令指针地址相同的线程组成,支持不同类型线程组的并发调度和执行。

着色器核心支持单指令多线程(SIMT)执行模型,所有执行通道共享一个指令前端。在每个指令发布周期,调度器选择一个就绪的线程组,并向其所有活动线程发布相同的指令。线程组内的线程一起执行,但彼此独立。为处理分支,由于谓词机制,单个线程的执行会被屏蔽。如果线程组中的线程在条件分支中选择不同路径,则每个分支路径将单独执行,直到所有线程重新汇聚到相同分支路径。

为维持峰值执行速率,着色器核心同时管理一组线程组,并交错执行它们。为实现指令流之间的快速切换,所有运行中线程的执行上下文存储在一个大型统一寄存器文件中。采用多存储体架构在不同线程组之间共享寄存器文件,并提供高操作数读取带宽,不同寄存器存储体的操作数通过交叉开关网络和操作数收集器被送到相应的计算单元/通道。

G

Security-feature-detection-system 安全检测系统 简介 安全检测系统-目标识别(YOLOv5)和人脸识别(Facenet)快速部署系统。 功能上:本项目使用YOLOv5实现目标识别,使用Facenet实现人脸识别,最终需要人脸和此人应具备的目标同时满足才能通过安全检测,部署上:使用pyqt5实现前端可视化,在前端页面运行YOLOv5目标识别系统(将模型运行封装到Qt中),使用Docker封装人脸识别后端系统,使用网络请求等包实现前后端交互 案例:进行目标识别的同时,进行人脸识别,前端系统发送请求,携带参数到后端进行人脸识别,最终返回人脸识别结果,获取人脸识别结果后,检索该成员应具备的目标特征,YOLOv5目标识别的实际结果进行比对,若无误则通过安全检测。 根据原作 https://pan.quark.cn/s/9784cdf4abfd 的源码改编 项目背景 出于一些比赛的需要,以及逃离懵懂状态开始探索,我于2023.12~2024.1(大二上)开始一些CV、LLM项目的研究,苦于能力有限,当时大部分的项目都是依托开源搭建而来,诸如本项目就是依托开源的Compreface和Yolov5搭建,我只不过做了缝合的工作,所以在此必须提及这两个项目的巨大贡献:https://.com/exadel-inc/CompreFace https://.com/ultralytics/yolov5 今天是2024.7.11(大二下暑假),时隔半年我才开始这个项目的开源工作是因为,半年前的水平有限,虽然自己能实现项目的运作,但是恐很细节介绍不好,当然本文自发出,后续我还会跟进,欢迎指正:22012100039@stu.xidian.edu.c...
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值