脚滑的狐狸160
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
41、利用 StarPU 统一运行时系统挖掘 Cell/BE 架构的潜力
本文介绍了如何通过扩展STARPU统一运行时系统来高效利用Cell/BE架构的计算潜力。STARPU通过codelet任务抽象、数据管理库和统一执行模型,支持多核CPU、GPU和Cell处理器的协同计算。针对Cell处理器特有的SPU本地内存与DMA传输机制,STARPU集成了异步的CELL-RTL驱动程序,采用作业链和多缓冲技术提升任务吞吐量,并通过非阻塞进度机制降低系统开销。实验表明,STARPU在矩阵乘法和乔列斯基分解等应用中实现了良好的性能与可扩展性,同时具备调度灵活性和跨平台可移植性。文章还总结了原创 2025-11-02 08:08:58 · 22 阅读 · 0 评论 -
40、通过旁路技术挖掘Cell/B.E.架构的局部性
本文探讨了在Cell/B.E.架构中通过旁路技术挖掘局部性以缓解EIB带宽瓶颈的方法。通过软件缓存和双缓冲技术减少通信开销,并引入旁路技术实现SPE间本地存储的直接数据传输,有效降低竞争与等待时间。结合CellSs编程环境与STARPU运行时系统,实现了任务的自动并行化与异构资源的高效调度。基准测试和实验验证了该方法在矩阵乘法、LU分解等线性代数算法中的有效性,结果表明旁路技术显著提升了系统性能。未来将优化旁路机制与运行时系统的集成,进一步提升高性能计算的可扩展性与可移植性。原创 2025-11-01 10:27:12 · 19 阅读 · 0 评论 -
39、实现Cell上的FIFO通信及利用旁路技术提升性能
本文探讨了在Cell平台上实现FIFO通信的两种策略——推策略与拉策略,分析其在减少DMA传输和同步开销方面的优劣,并通过实验验证拉策略在避免死锁和提升性能方面的有效性。同时,提出利用旁路技术绕过EIB带宽限制,以提升分布式计算应用的执行效率。结合Leiden Cell C-code Generator工具和多个基准测试(如JPEG编码器、JPEG2000、Sobel等),展示了在不同应用场景下通信优化与并行化粒度对性能的影响,为Cell/B.E.平台上的高效并行编程提供了实践指导。原创 2025-10-31 09:16:28 · 18 阅读 · 0 评论 -
38、多处理器在断层扫描与流应用中的高效计算探索
本文探讨了多处理器在断层扫描与流应用中的高效计算方法。在断层扫描方面,利用多GPU的FASTRA系统实现了超过300倍的加速比,兼具高性能、低成本和低功耗优势;在流应用方面,针对KPN模型在Cell BE平台上的FIFO通信问题,提出了基于令牌分组的实现方案,显著降低了通信延迟并提升了吞吐量。实验结果验证了两种方法的有效性,未来可进一步优化算法并融合多种技术以应对日益增长的计算需求。原创 2025-10-30 15:36:48 · 15 阅读 · 0 评论 -
37、稀疏矩阵向量乘法与断层成像计算的硬件选择与实现
本文探讨了稀疏矩阵向量乘法在断层成像计算中的硬件选择与实现,重点分析了Cell-BE与GPU两种并行架构的性能差异。研究表明,由于GPU具有更高的内存带宽和更强的并行处理能力,结合CUDA平台可显著加速SIRT等迭代重建算法。通过合并内存访问、避免写冲突等优化策略,单个GPU即可实现超过40倍的加速。进一步构建的8-GPU系统在性能上媲美数百CPU集群。未来研究方向包括矩阵重排序、对称矩阵存储优化及多向量输入的高效存储,有望持续提升计算效率。原创 2025-10-29 09:50:50 · 12 阅读 · 0 评论 -
36、在 NVIDIA GPU 上实现分块稀疏矩阵 - 向量乘法
本文介绍了在NVIDIA GPU上实现分块稀疏矩阵-向量乘法(SpMV)的方法,提出了一种结合BCOO与BCSR特点的混合分块存储格式,并通过合理的工作分配、共享内存使用和块选择策略优化性能。针对高填充率块的矩阵,该方法显著提升了计算效率;而对于非零元素较少或结构不规则的矩阵,则分析了性能瓶颈并提出了自适应格式选择、改进块选择算法和内存管理优化等改进方向。实验结果表明,在多种测试矩阵上,新实现相比传统方法取得了最高达3.58倍的加速比,尤其适用于具有局部稠密结构的稀疏矩阵。原创 2025-10-28 14:05:41 · 18 阅读 · 0 评论 -
35、多分辨率图像滤波算法的高效映射
本文探讨了多分辨率图像滤波算法在GPU上的高效映射方法,涵盖数据打包、分块策略、内存与计算优化以及线程块配置空间的离线探索。通过结合查找表、纹理内存、共享内存和内核合并等技术,显著提升了双边滤波器的性能。实验表明,相比CPU实现,GPU版本在不同图像尺寸下实现了21x至33x的加速比。文章还提出未来可将配置探索集成到开发工具中,并利用CPU-GPU异步并发实现更高效的异构计算架构。原创 2025-10-27 12:32:41 · 16 阅读 · 0 评论 -
34、可重构多线程架构与图形处理器算法映射技术解析
本文深入解析了可重构多线程架构与图形处理器(GPU)在算法加速中的关键技术,重点探讨了多分辨率图像滤波算法在NVIDIA Tesla C870 GPU上的高效映射方法。内容涵盖处理器架构、任务调度、内存优化策略、内核分类处理及执行配置探索,并结合多个研究案例展示了显著的性能加速效果。同时展望了未来在架构设计、智能化编程模型和跨平台兼容性方面的发展趋势,为高性能计算应用提供了理论支持与实践参考。原创 2025-10-26 16:02:13 · 13 阅读 · 0 评论 -
33、可重构多线程架构概述
本文综述了可重构多线程架构(ρMT)的研究进展,涵盖无支持、隐式支持和显式支持三类架构的代表性项目及其特点。分析了线程调度、隐藏重新配置延迟、上下文切换等关键设计问题,并总结了当前已解决与待解决的问题。文章进一步探讨了未来研究方向,包括硬件与软件深度融合、智能化调度及跨领域应用拓展,展示了ρMT架构在高性能计算与实时系统中的广阔应用前景。原创 2025-10-25 11:17:36 · 21 阅读 · 0 评论 -
32、并行新时代的可重构计算与可重构多线程架构综述
本文综述了并行新时代下的可重构计算与可重构多线程架构,探讨了FPGA在消除开销操作和实现并行性方面的加速优势及其面临的可编程性与算法适配挑战。介绍了ROCCC 2.0编译器如何通过模块化方法生成高效硬件加速器,并分析了支持多线程的可重构架构分类:无、隐式和显式ρMT支持架构。文章总结了当前在资源管理、线程映射、调度与同步方面存在的设计问题,提出了智能资源管理、自适应映射、高效调度与新型同步机制等未来研究方向,展望了更高效灵活的可重构系统在多领域应用的发展前景。原创 2025-10-24 11:31:09 · 16 阅读 · 0 评论 -
31、低功耗可重构计算技术:从多核处理器到新兴范式
本文探讨了低功耗可重构计算技术的发展与应用,涵盖从多核处理器的线程映射与迁移策略到FPGA在嵌入式系统和高性能计算中的潜力。分析了可重构计算在并行处理、定制化硬件和数据局部性方面的速度提升机制,并讨论了其面临的架构粒度、编程工具链复杂性和应用专业化等挑战。文章还提出了应对策略与未来发展方向,强调可重构计算在能效与性能优化中的重要作用。原创 2025-10-23 13:07:05 · 19 阅读 · 0 评论 -
30、基于流计算模型的应用与可重构多核服务器处理器低功耗设计
本文探讨了基于流计算模型的应用与可重构多核服务器处理器的低功耗设计。流计算模型在生物信息学等数据密集型领域展现出显著的性能提升和功耗优势,通过硬件复制与SIMD控制实现高效处理。同时,提出一种支持近阈值计算和集群共享缓存的可重构多核架构,结合简单顺序核心与复杂乱序核心,在保证性能的同时大幅降低能耗。文章分析了技术优势、挑战及未来发展方向,涵盖云计算与边缘计算等应用场景,为高性能低功耗计算系统的设计提供了重要参考。原创 2025-10-22 12:18:49 · 15 阅读 · 0 评论 -
29、异构系统与流计算模型在硬件加速设计中的应用
本文探讨了异构系统与流计算模型在硬件加速设计中的应用,提出了一种轻量级且高度兼容的动态函数映射方法,结合GPU与FPGA实现高效加速。通过编译指示提供指导信息,利用Linux系统与HyperTransport互连技术构建测试平台,并采用procfs和设备驱动实现软件栈通信。文章重点分析了流计算模型在MrBayes生物信息学应用中的实现,通过数据分区与GPU并行化提升性能,并进一步将CUDA实现映射到可重构硬件,采用操作折叠、硬件复用和流水线优化技术,形成最终折叠架构(FCA)。实验结果表明该方案在性能、兼容原创 2025-10-21 13:20:52 · 11 阅读 · 0 评论 -
28、可重构计算与异构系统编程的未来趋势
本文探讨了可重构计算与异构系统编程的未来趋势,分析了传统编程方法在面对多核、众核及可重构硬件时的局限性。针对现有方法在兼容性、应用需求考虑和运行时开销等方面的不足,提出了一种轻量级‘拥抱与扩展’方法,通过扩展现有操作系统机制(如GOT和TSS)实现线程安全、应用感知的动态函数映射。该方法具备高兼容性、低开销、满足延迟/吞吐量/精度需求等优势,并在基于IA32与FPGA的异构平台上验证了其有效性。文章最后总结了该方法的价值,并展望了性能优化、硬件支持扩展和自动化提升等未来方向。原创 2025-10-20 14:24:40 · 19 阅读 · 0 评论 -
27、运行时自适应可扩展嵌入式处理器综述
本文综述了运行时自适应可扩展嵌入式处理器的研究进展,涵盖显式与透明两类架构。显式架构如PRISC、Molen等依赖程序员或编译器干预实现时间、空间或部分重配置,虽具备高性能潜力但面临编译器支持不足和重配置开销问题;透明架构如CCA、WARP和RISPP则由运行时系统自动完成指令定制与硬件加速,提升了灵活性但带来设计复杂性和运行时开销。文章对比了各类架构特点,分析了其优势与挑战,并探讨了未来在编译器优化、降低重配置成本、增强运行时智能性及跨架构兼容性等方面的发展方向,最后结合实时系统、物联网和高性能计算等场景原创 2025-10-19 15:46:19 · 16 阅读 · 0 评论 -
26、特定应用处理器定制的通用设计流程及运行时自适应可扩展嵌入式处理器概述
本文概述了特定应用处理器定制的通用设计流程,重点介绍了指令集可扩展处理器的设计方法与运行时自适应可扩展嵌入式处理器的架构优势。文章详细分析了ISE识别算法、设计约束条件、后端硬件生成流程,并通过H.264和X.264案例验证了流程的有效性。进一步区分了显式与透明可重构性处理器的工作机制,探讨了其在动态应用中的性能提升潜力,最后指出了未来在流水线架构扩展、资源共享自动化和优化算法改进等方面的发展方向。原创 2025-10-18 10:11:29 · 16 阅读 · 0 评论 -
25、特定应用指令的约束驱动识别与处理器定制设计流程
本文介绍了一种基于约束驱动的特定应用指令识别方法及通用的应用特定处理器(ASIP)定制设计流程。通过完成时间、最大延迟和节点数量等约束条件,有效识别出高性能的计算模式,并结合实验结果验证了新方法在覆盖率和效率上的优势。设计流程以ANSI-C源代码为输入,集成ISE识别、应用程序分析(µProfiler)和后端硬件生成,支持从头设计与有限定制两种ASIP开发方式。流程支持两级设计空间探索,提升设计灵活性与优化能力。文章还展示了实际应用案例与mermaid流程图,展望了未来在智能算法与多约束优化方向的发展潜力。原创 2025-10-17 09:34:48 · 10 阅读 · 0 评论 -
24、指令集定制与DURASE系统中的计算模式识别
本文介绍了DURASE系统在指令集定制与计算模式识别中的应用。该系统通过约束驱动的方法,结合分层条件依赖图(HCDG)和约束编程技术,自动识别满足架构与技术约束的应用相关计算模式,并生成相应的处理器扩展与定制指令。相比传统聚类或增量方法,DURASE采用形式化的图匹配与智能过滤机制,在MediaBench和MiBench基准测试中展现出良好的应用覆盖率和约束满足能力。文章还总结了系统的整体流程、技术优势及在嵌入式系统等领域的应用前景。原创 2025-10-16 15:46:14 · 13 阅读 · 0 评论 -
23、NoTA与GENESYS架构对比分析
本文对NoTA与GENESYS两种系统架构进行了深入对比分析,探讨了二者在服务导向、基于组件设计、接口规范、稳定平台服务及扩展机制等方面的共性,并从架构范围、属性保证和多层级集成角度揭示其差异。文章进一步提出NoTA可在GENESYS架构上实例化,通过将DIP作为可选服务实现,结合适配器与资源管理作业,充分发挥GENESYS在通信保证与封装方面的优势。该融合方案有望提升消费类应用系统的可靠性与整体质量。原创 2025-10-15 13:15:18 · 18 阅读 · 0 评论 -
22、嵌入式系统架构:NoGAP、NoTA与GENESYS的技术剖析
本文深入剖析了三种嵌入式系统架构——NoGAP、NoTA和GENESYS。NoGAP提供灵活的微架构构建框架,支持HDL代码、模拟器和编译器生成;NoTA面向移动与嵌入式设备,采用服务导向的分层架构以提升互操作性;GENESYS则聚焦跨领域复杂系统,通过组件化与消息传递降低设计复杂度。文章比较了三者的共性与差异,探讨其优势、挑战、应用场景及融合可行性,并展望未来在架构融合、智能化与安全性方面的发展趋势。原创 2025-10-14 10:16:17 · 15 阅读 · 0 评论 -
21、NoGAP:微架构构建框架解析
NoGap 是一种创新的微架构构建框架,旨在为有经验的硬件设计师提供高度灵活的设计支持,填补现有架构描述语言(ADL)工具与传统硬件描述语言(HDL)之间的空白。它不依赖预定义架构模板,专注于处理流水线复杂性和硬件复用,适用于新颖专用指令集处理器(ASIP)和可编程加速器的设计。通过其核心组件 NoGapCD —— 包括 Mase、Mage 和 Castle,结合前端 Facet 与后端 Spawner 的模块化架构,NoGap 实现了从抽象设计到 RTL 代码、模拟器等实用输出的高效生成。相比现有工具,N原创 2025-10-13 09:20:41 · 15 阅读 · 0 评论 -
20、在LISA中对可扩展SIMD DSP进行建模
本文探讨了在LISA 2.0语言中对可扩展SIMD DSP进行建模的挑战与解决方案。针对LISA在并行激活多个数据路径方面的局限性,提出使用GNU M4宏语言扩展LISA,实现从标量模板自动生成可扩展的SIMD数据路径和控制逻辑。此外,设计了支持多种规则拓扑(如全交叉开关、洗牌交换和多级立方体)的SIMD置换网络生成器。该方法显著提升了LISA对SIMD架构的建模能力,为高性能数字信号处理器的设计提供了自动化、可复用的建模框架。原创 2025-10-12 15:28:15 · 14 阅读 · 0 评论 -
19、嵌入式MPSoC平台性能评估与数据可视化
本文介绍了基于Sesame建模与仿真框架的嵌入式多处理器片上系统(MPSoC)性能评估方法,并重点探讨了如何通过多协调可视化视图处理和分析大量仿真数据。文章详细描述了概述+细节视图、表格视图、延迟视图、矩阵视图、任务视图和方法视图的作用与操作流程,结合并行视频编码器的应用实例,展示了可视化工具在发现性能趋势、分析异常情况和辅助设计决策方面的优势。最后提出了该工具在复杂模型支持和自动化集成方面的未来发展方向。原创 2025-10-11 12:59:35 · 14 阅读 · 0 评论 -
18、光学可重构门阵列与计算机架构模拟数据可视化研究
本文探讨了光学可重构门阵列与计算机架构模拟数据可视化两个前沿研究方向。在光学可重构门阵列方面,通过全息存储模式计算与0.35μm CMOS工艺制造的DORGA-VLSI芯片实验,验证了反相/非反相架构在重构速度和功耗上的优势,实现最高1.5倍重构频率提升和28%光学配置功耗降低。在计算机架构模拟数据可视化方面,基于Improvise框架开发了交互式多视图可视化工具,结合Sesame模拟环境,支持对系统级设计空间探索中产生的复杂数据进行直观分析,帮助设计师深入理解性能格局。两项研究分别从硬件重构效率与模拟数据原创 2025-10-10 16:29:17 · 44 阅读 · 0 评论 -
17、动态SDRAM控制器策略预测与可重构门阵列技术解析
本文深入探讨了动态SDRAM控制器策略预测与可重构门阵列技术在提升计算机系统性能中的关键作用。通过分析不同预测器的执行时间与预测准确率,揭示了历史寄存器长度对性能的影响机制,并介绍了传统ORGA架构及其改进型ODRGA与DORGA的技术特点。同时,提出了一种新型反相/非反相零开销配置方法,有效降低亮位数量,提升重构频率。文章还展望了该技术在高速计算和通信领域的应用前景,并指出了重构时间优化与功耗降低等未来挑战。原创 2025-10-09 15:48:10 · 14 阅读 · 0 评论 -
16、量子点细胞自动机与动态SDRAM控制器策略研究
本文探讨了量子点细胞自动机(QCA)与动态SDRAM控制器策略的前沿研究。在QCA方面,重点分析了基数-4重编码乘法器在吞吐量和并行计算上的优势,并讨论了其在缺陷容错与功耗方面的挑战及可逆计算的未来方向;在动态SDRAM控制器方面,研究了基于访问历史的两级预测器结构,通过模式历史表和历史寄存器实现策略预测,显著降低内存访问延迟。文章还总结了两种技术的优化路径,包括冗余设计、预测算法改进及与其他系统技术的融合,展望了其在提升计算机系统性能与可靠性方面的重要潜力。原创 2025-10-08 13:06:19 · 22 阅读 · 0 评论 -
15、电路分区与量子点细胞自动机乘法器技术解析
本文深入解析了FSMD分区技术在电路功耗优化中的应用,以及基于量子点细胞自动机(QCA)的Radix-4重编码乘法器的设计与性能分析。FSMD分区通过模拟退火算法实现控制器与数据路径的高效分解,在复杂内核中可显著节能且性能损失小。QCA技术以其高密度和高速潜力成为未来纳米级电路的重要候选方案。文中提出的Radix-4 Booth乘法器采用脉动流水线结构,实现无反馈、无停顿操作,延迟减半、吞吐量提升,在性能与复杂度之间取得良好平衡。尽管其面积开销较大,尤其在倍数分配网络方面,但为高性能计算提供了新方向。未来研原创 2025-10-07 16:44:14 · 13 阅读 · 0 评论 -
14、基于模拟退火算法的有限状态机数据路径(FSMD)自动低功耗分区技术
本文提出了一种基于模拟退火算法的有限状态机数据路径(FSMD)自动低功耗分区技术,旨在通过行为级分区实现静态和动态功耗的显著降低。该方法将FSMD分区问题建模为非线性规划问题,综合考虑共享变量、转换开销和循环分割惩罚,并采用模拟退火算法高效求解。实验结果表明,该技术在多种DSP内核和计数器电路中均能有效节省功耗,尤其在两到四个分区的情况下表现优异。同时,文章提供了详细的功耗估计框架,并分析了性能开销,验证了其在嵌入式系统和数字信号处理等领域的应用潜力。原创 2025-10-06 15:47:39 · 11 阅读 · 0 评论 -
13、具有Omega网络的多处理器架构助力大规模并行GCA模型
本文介绍了一种基于Omega网络的多处理器架构,用于实现大规模并行的全局元胞自动机(GCA)模型。该架构采用FPGA技术构建,结合NIOS II软核处理器和自定义指令集,具备高灵活性、良好可扩展性以及简化的只读互连网络设计。通过在Cyclone II和Stratix II FPGA上的原型实现,验证了系统在不同处理单元数量下的性能表现,32处理器配置下实际加速比达到8.2。文章分析了阻塞、时钟频率下降和同步开销等挑战,并提出了网络优化、总线架构研究(如环形网络)和算法适配等未来发展方向。该架构为复杂并行应用原创 2025-10-05 11:12:04 · 14 阅读 · 0 评论 -
12、基于FPGA多处理器片上系统与电源管理的W - CDMA小区搜索实现
本文介绍了一种基于FPGA的多处理器片上系统(MPSoC)Coffee Machine平台,用于实现W-CDMA系统中的目标小区搜索算法。该平台采用9个Coffee RISC处理器和分层片上网络(NoC)架构,支持广播通信与软件控制的时钟门控电源管理技术,在Altera Stratix II FPGA上实现了7.3倍的整体加速比,并通过动态功耗优化降低了33%的功耗。文章详细分析了系统架构、互连机制、电源管理策略及其在嵌入式SDR应用中的性能表现,展示了其在3G移动通信中的高效处理能力与低功耗优势。原创 2025-10-04 11:50:10 · 16 阅读 · 0 评论 -
11、多核架构中细/中粒度线程级并行支持的实现
本文介绍了在多核架构中实现细/中粒度线程级并行(TLP)的支持机制,重点阐述了解耦线程架构(DTA)的设计原理与硬件结构。DTA通过帧内存、分布式调度器和ISA扩展实现内存访问解耦与动态调度,提升了系统性能和可扩展性。文章分析了DTA在不同基准测试中的表现,并探讨了其在异构多核环境中的应用潜力。实验结果显示,除高线程请求负载外,多数应用具备良好可扩展性。未来工作包括优化调度机制、实现虚拟帧指针及开发自动代码提取工具,以推动DTA架构的实际应用与发展。原创 2025-10-03 13:36:40 · 15 阅读 · 0 评论 -
10、多线程与多核处理器配置评估及DTA架构实现分析
本文深入探讨了多线程与多核处理器的架构设计及其性能评估,重点分析了不同核心与线程配置对系统性能、单线程表现和流水线利用率的影响。研究指出增加核心数量比增加线程数更具性能优势,推荐每个核心支持两个线程槽。同时,文章介绍了DTA(Decoupled Threaded Architecture)架构,该架构通过硬件调度单元和细/中粒度线程级并行性提升多核环境下的执行效率与可扩展性。结合实验评估,验证了DTA在多核系统中的高性能和良好扩展能力,并展望了其未来优化方向及与其他并行技术融合的潜力。原创 2025-10-02 11:37:04 · 18 阅读 · 0 评论 -
9、视频编码与多核处理器配置相关技术解析
本文深入探讨了视频编码与多核处理器配置的相关技术。在视频编码方面,重点分析了多描述可伸缩编码技术及其在H.264标准中的扩展应用,提出了一种抗丢包能力强、无需冗余纠错码的高效编码方法,并通过实验验证了其性能优势。在多核处理器方面,系统评估了单线程单核心、多线程单核心、单线程多核和多线程多核四种配置的性能特点,指出多线程多核架构在并行处理中的优越性。文章进一步探讨了视频编码与多核处理器的结合应用,如并行编码、实时处理和质量优化,并展望了未来在更高并行性、智能化处理和低功耗设计方面的发展趋势。原创 2025-10-01 11:34:06 · 17 阅读 · 0 评论 -
8、动态应用在MPSoC上的场景映射及多描述可伸缩视频编码
本文研究了动态应用在MPSoC平台上的场景映射与优化调度,以3D游戏中的Wavelet Subdivision Surfaces(WSS)应用为例,通过系统场景识别、灰盒建模和TCM设计时与运行时调度,实现能耗优化与实时性保障。同时,提出一种结合多描述编码(MDC)与H.264标准可伸缩视频编码(SVC)的新方法,提升视频在不可靠网络环境下的容错性与自适应能力。实验表明该方法在保证视频质量(平均Y-PSNR达36dB)的同时有效降低能耗,具备良好的应用前景。原创 2025-09-30 11:48:07 · 10 阅读 · 0 评论 -
7、可重构视频解码器与动态应用映射技术解析
本文探讨了可编程加速器在可重构视频解码器中的应用,以及基于MPSoC的动态应用场景映射技术。通过对比不同CABAC解码器实现方式的性能,展示了可编程方案在灵活性与效率间的平衡优势。针对动态性强的3D图形应用,提出结合任务并发管理(TCM)与系统场景的方法,实现设计时与运行时的协同调度,有效提升资源利用率和能源效率。实验结果表明,引入FPGA加速器的TCM调度显著缩短执行时间并降低能耗。该技术在多媒体设备、VR/AR及智能汽车等领域具有广阔应用前景。未来研究将聚焦通信与内存瓶颈优化、并行化改进及算法升级。原创 2025-09-29 16:15:21 · 16 阅读 · 0 评论 -
6、可重构视频解码器的可编程加速器
本文提出了一种基于可编程专用处理器的可重构视频解码器加速架构,旨在平衡灵活性、性能与能效。针对高清视频解码中计算开销最大的运动补偿和可变长度码(如CABAC)解码环节,设计了基于传输触发架构(TTA)的专用可编程加速器。通过TCE工具实现,该方案在保持接近硬连线设计高性能的同时,支持MPEG-4、H.264、VC-1等多种标准及专有格式。相比纯软件方案显著降低能耗,相较传统硬连线设计大幅提升格式兼容性。文章分析了其在不同块大小下的插值性能与解码流程,并通过对比凸显其在灵活性、吞吐量和硅片面积上的综合优势,最原创 2025-09-28 11:12:52 · 12 阅读 · 0 评论 -
5、CABAC加速器架构:视频压缩的高效解决方案
本文深入分析了CABAC(上下文自适应二进制算术编码)加速器的多种硬件架构,包括直接数据路径、并行、流水线、并行流水线及ASIP/ISE-based架构。重点探讨了各类架构在吞吐量、稳定性、硬件效率和控制复杂度方面的优劣,指出并行流水线架构凭借高且稳定的吞吐量、良好的硬件利用率和简单的控制逻辑,成为支持高清乃至未来高质量视频系统的最有前途方案。同时,文章展望了未来在架构创新、设计方法、EDA工具开发和多标准兼容性方面的研究方向。原创 2025-09-27 14:42:34 · 16 阅读 · 0 评论 -
4、抽象流机器与CABAC硬件加速器架构综述
本文综述了抽象流机器(ASM)与CABAC硬件加速器的架构设计。首先介绍了相关工作,包括用于处理器描述的语言和模型,如ISP、LISA、SVM和PCA等,并对比了其特点。随后分析了多媒体系统对高效视频编码的需求,重点阐述CABAC在H.264/AVC中的高效率与高复杂度问题,指出硬件加速的必要性。文章详细解析了CABAC的三大编码步骤:二值化、上下文建模和二进制算术编码,并探讨了并行、流水线及并行流水线等硬件加速架构的优缺点。通过系统化的架构对比与设计流程说明,提出了CABAC硬件加速器的设计方法论,并展望原创 2025-09-26 14:05:09 · 13 阅读 · 0 评论 -
3、抽象流机器:异构多处理器上流式程序的编译时性能建模
本文介绍了抽象流机器(ASM)在异构多处理器系统上对流式程序进行编译时性能建模的方法。ASM通过参数化描述处理器、内存和互连,构建目标系统的二分图模型,支持任务融合、分配与通信优化。结合ACOTES编译器流程,ASM利用模拟器和搜索算法实现自动映射优化,并通过生产者-消费者、链式结构及GNU无线电等基准测试验证其吞吐量与延迟预测的准确性。文章还分析了当前互连与内存模型的局限性,并展望了未来在动态优化、多平台扩展及与其他编译技术融合的方向。原创 2025-09-25 15:16:57 · 12 阅读 · 0 评论 -
2、图形处理单元的可编程和可扩展架构
本文提出了一种基于传输触发架构(TTA)的可编程和可扩展图形处理单元TTAGPU。该架构通过软件实现OpenGL图形管线,支持GLSL着色器编程和未来OpenCL标准,结合TTA在指令级和任务级的双重可扩展性优势,提升了图形处理的灵活性与性能。通过硬件FIFO实现任务级并行,利用编译器优化实现指令级并行,实验表明其在增加功能单元时接近线性加速。未来工作包括完成OpenGL API支持、评估多核性能及构建硬件原型。原创 2025-09-24 11:30:16 · 14 阅读 · 0 评论
分享