自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1620)
  • 资源 (16)
  • 收藏
  • 关注

原创 深度学习-学习知识汇总

翻译:[] [] 翻译:[] [] 翻译:[] [] 翻译:[] [] 翻译:[] [] 翻译:[] [

2024-10-20 18:16:59 256

原创 Bmlib 中的内存管理

在算能(Sophgo)的 ​Bmlib 中,内存管理是优化计算性能的关键环节。Bmlib 提供了多种内存类型,以满足不同场景下的数据传输、计算加速和资源复用需求。

2025-04-03 11:20:17 441

原创 Bmlib 中的​Handle​概念

在算能(Sophgo)的 ​Bmlib 中,​Handle​(句柄)是一个核心概念,它代表了对硬件设备(如BM1684、BM1684X等芯片)的逻辑抽象,是开发者与设备交互的“入口”。通过Handle,开发者可以管理设备的资源、执行计算任务、监控设备状态等。

2025-04-03 11:19:01 424

原创 算能(Sophgo)的 ​Bmlib 介绍

算能(Sophgo)的 ​Bmlib 是其针对自研AI加速芯片(如BM1684、BM1684X、BM1686等)开发的底层软件库,旨在优化硬件资源管理并提升深度学习计算效率。

2025-04-03 11:16:57 183

原创 AI领域常见数值精度全解析

在AI领域,数值精度直接影响模型的训练效率、推理速度、内存占用及计算精度。不同的数值格式适用于不同场景

2025-04-03 09:58:26 525

原创 统一中间表示(MLIR)深度解析

MLIR通过多级抽象与可扩展方言,成为连接算法与硬件的“超级胶水”。在TPU生态中,TPU-MLIR等编译器利用其能力,将高层模型描述逐步降级为高效硬件指令,同时保留跨框架与跨硬件的灵活性。开发者可通过定制方言与优化Pass,释放TPU的极致性能,而无需深陷底层硬件细节。随着MLIR生态的成熟,其有望成为下一代编译技术的基石,推动AI与异构计算的深度融合。

2025-04-03 09:51:51 281

原创 TPU-MLIR 编译器深度解析

TPU-MLIR是算能TPU生态中的核心枢纽工具,通过MLIR中间表示层与硬件感知优化,打通了从算法开发到芯片落地的全流程。其优势在于量化精度控制、跨框架兼容性与指令级性能优化,尤其适合边缘计算与行业定制化场景。开发者需结合模型特性与硬件约束,合理使用编译选项与调试工具,以最大化释放算能TPU的潜力。

2025-04-03 09:45:46 301

原创 TPU 指令集架构深度解析

TPU指令集以领域专用性与数据流驱动为核心,通过精简指令集、硬件固化逻辑与高并行架构,实现张量计算的极致性能。开发者通常无需直接编写指令,但理解其设计原理对性能调优(如内存布局优化、指令调度)至关重要。算能TPU通过开放指令描述与编译器工具链,为垂直行业提供了更高灵活性的定制空间,而谷歌TPU则依赖编译器的全自动化优化,更适合大规模标准模型部署。未来,随着稀疏计算、光子计算等技术的引入,TPU指令集将进一步向高能效与高泛化性演进。

2025-04-03 09:44:09 366

原创 量化感知训练(QAT)深度解析

QAT通过训练时量化模拟与梯度修正,成为高精度低比特推理的核心技术。在算能TPU生态中,开发者需结合TPU-MLIR工具链与硬件特性,精细调控量化策略(如混合精度、稀疏优化),以实现最佳能效比。关键成功要素包括:​敏感层识别、动态范围学习及训练稳定性控制。对于极致精度场景,QAT是优于PTQ的解决方案,但需权衡其额外训练成本。

2025-04-03 09:41:12 446

原创 训练后量化(PTQ)深度解析

PTQ是平衡效率与精度的核心技术,尤其适合边缘计算与实时推理场景。在算能TPU生态中,结合TPU-MLIR工具链与硬件级优化,开发者可快速实现模型轻量化。关键成功因素包括:​校准数据代表性、敏感层保护策略及硬件特性匹配。对于精度要求严苛的任务,建议后续探索QAT或混合精度方案。

2025-04-03 09:39:17 487

原创 算能 ​BModel 深度解析

BModel是算能TPU生态中的核心枢纽,通过端到端编译优化与硬件级适配,打通从算法开发到边缘落地的全流程。其在高性能推理、低功耗部署等场景的优势,使其成为企业AI工业化落地的关键技术。开发者需结合模型特性与硬件约束,合理选择量化策略与工具链优化,以充分发挥BModel的潜力。

2025-04-03 09:37:35 295

原创 算能(SOPHGO)TPU 深度解析

算能(SOPHGO)作为国内领先的AI芯片设计公司,其TPU(张量处理单元)以高能效比和全场景覆盖能力为核心竞争力,专注于边缘计算与行业垂直领域的AI加速需求。

2025-04-03 09:23:48 338

原创 TPU进阶解读:从架构到生态的深度剖析

TPU的进阶能力体现在软硬件协同设计与超大规模并行的极致优化上。开发者需深入理解其架构特性(如脉动阵列、稀疏计算),结合框架级调优(XLA编译、分布式策略),才能释放TPU的完整潜力。未来,TPU将在光子计算、量子混合架构等方向持续突破,但生态开放性与灵活性仍是其普及的关键挑战。

2025-04-03 09:20:02 624

原创 AI TPU(张量处理单元)介绍

TPU是谷歌推动AI算力边界的关键技术,尤其适合需要极致性能与能效的大规模模型场景。开发者需根据框架兼容性、模型规模及成本权衡选择TPU或GPU方案。

2025-04-03 09:09:55 194

原创 chrono库的duration_cast 函数深度解析

duration_cast 是 C++ <chrono> 库中用于显式转换时间段(duration)单位的核心函数,通过类型安全的模板操作实现时间单位的精确控制。

2025-04-02 13:38:45 163

原创 C++ chrono 库核心 API 函数详解

chrono 库提供了一套类型安全、高精度的时间处理工具,涵盖时间点(time_point)、时间段(duration)和时钟(clock)的创建、转换和计算。

2025-04-02 13:34:15 616

原创 chrono库中time_point_cast 函数深度解析

在C++的chrono库中,time_point_cast函数是一个关键工具,用于在不同精度或不同时间单位的时间点(time_point)之间进行类型安全的转换。

2025-04-02 11:51:29 405

原创 C++ chrono 库的核心优势解析

对比传统方法:chrono 在安全性、灵活性和可维护性上全面超越 time.h,尤其适合高频计时、分布式系统、实时控制等场景。

2025-04-02 11:47:19 683

原创 C++ chrono 库深度解析

chrono 是 C++11 引入的标准时间处理库,旨在提供精度中立的时间管理方案,通过分离时间点(time_point)、时间段(duration)和时钟(clock)的概念,解决传统时间接口(如 POSIX)的碎片化问题。

2025-04-02 11:43:57 511

原创 模型计算效率的核心影响因素与优化策略

模型计算效率的提升需从算法设计、硬件适配与资源管理三方面综合优化。例如,MobileNetV3通过轻量化架构和硬件感知搜索(NAS)在FLOPs降低70%的同时保持精度;而量化后的BERT模型可在边缘设备上实现实时推理。未来方向包括动态稀疏化、混合精度训练与异构硬件协同设计,以进一步突破效率瓶颈。

2025-04-01 08:52:32 646

原创 内存访问成本(MAC)的核心解析与优化策略

MAC是模型效率的核心限制因素之一,需结合计算复杂度(FLOPs)​、内存访问模式及硬件特性综合优化。未来方向包括动态稀疏化、硬件协同设计等,以在精度与速度间取得更优平衡。

2025-04-01 08:45:12 778

原创 FLOPs与推理速度的关系解析

FLOPs是评估模型效率的必要非充分条件。实际推理速度由计算密度、访存量、硬件特性共同决定。设计高效模型需在减少FLOPs的同时优化内存访问,并适配目标硬件的计算特性。例如,ShuffleNetV2通过四项设计原则(通道平衡、减少分组、简化分支、避免逐元素操作),在低FLOPs下实现高速度,成为移动端部署的标杆。

2025-04-01 08:30:34 829

原创 非结构化剪枝(Unstructured Pruning)技术解析

非结构化剪枝通过细粒度移除冗余权重,在理论上实现了极高的模型压缩率,但其实际价值高度依赖硬件对稀疏计算的支持。在 LLM 压缩、边缘智能等场景中,非结构化剪枝与结构化剪枝、量化等技术结合,可最大化发挥其优势。未来随着稀疏计算硬件的普及(如 NPU 支持稀疏指令集),非结构化剪枝有望成为模型轻量化的核心手段之一。

2025-03-31 16:38:35 895

原创 结构化剪枝技术解析

结构化剪枝通过移除模型中的结构化冗余单元,在保持硬件兼容性的同时实现高效加速,是边缘计算与实时系统的首选压缩方案。其核心价值在于 ​平衡速度、精度与部署成本。未来结合自动化搜索(如AutoSlim)与量化技术,将进一步推动轻量化模型在工业界的落地应用。

2025-03-31 16:37:03 197

原创 R-TOSS(Reinforcement Learning-based Task-Oriented Structural Sparsity)

R-TOSS通过强化学习驱动的半结构化剪枝,在目标检测模型的轻量化领域实现了精度与效率的更好平衡。其动态核模式剪枝与硬件适配性使其在自动驾驶、工业质检等实时场景中具有显著优势,但训练成本与硬件依赖仍是未来需突破的瓶颈。

2025-03-31 16:35:45 515

原创 R-TOSS框架深度解析

R-TOSS通过强化学习将剪枝转化为多目标优化问题,实现了精度与效率的最佳平衡,特别适合资源受限的工业场景。其核心价值在于 ​硬件感知的自动化压缩,尽管存在训练成本高的问题,但在边缘计算、自动驾驶等领域具有不可替代性。未来结合动态稀疏训练与联邦学习,可能进一步降低其对标注数据与计算资源的依赖。

2025-03-31 16:34:20 678

原创 梯度弥散(Vanishing Gradient)和梯度爆炸(Exploding Gradient)

梯度弥散(Vanishing Gradient)和梯度爆炸(Exploding Gradient)是深度学习中常见的问题,特别是在训练深度神经网络时。它们会影响模型的训练效果和稳定性。

2025-03-31 09:26:38 888

原创 Ultralytics 框架中predict 与 track 的区别

在 Ultralytics 框架中,predict 和 track 是两种不同的推理方法,分别用于目标检测(或分割、姿态估计)和目标跟踪任务。

2025-03-31 08:13:22 799

原创 Ultralytics 框架中Predictor类解析

通过灵活配置 Predictor 参数,您可以高效完成从简单图像检测到实时视频分析的复杂任务。

2025-03-31 08:12:51 1094

原创 Ultralytics 框架中高效资源管理

Ultralytics 框架通过以下机制实现高效的资源管理,帮助用户在有限硬件资源下最大化模型训练与推理性能

2025-03-29 15:06:57 803

原创 Ultralytics 框架中跟踪任务集成

通过灵活配置跟踪算法与参数,Ultralytics 能够满足从简单视频分析到复杂多目标追踪的多样化需求。

2025-03-29 15:03:12 423

原创 Ultralytics 框架中视频与图片推理优化

通过上述优化策略,Ultralytics 框架可在 ​保持高精度 的前提下显著提升视频与图片的推理效率,满足工业检测、安防监控等场景的实时性需求。

2025-03-29 14:59:34 727

原创 Ultralytics 框架中多任务适配能力

Ultralytics 框架通过 ​模块化架构设计、统一数据处理、动态损失组合及灵活训练策略,实现了高效的多任务适配能力。用户仅需通过配置文件或参数切换任务类型,即可无缝切换检测、分割、姿态估计等任务,显著提升开发效率,适用于工业检测、自动驾驶、医疗影像等复杂场景。

2025-03-29 14:55:51 839

原创 Ultralytics 框架中动态模型加载与解析

通过动态模型加载与解析机制,Ultralytics 实现了灵活的多任务支持与高效的资源利用,成为工业检测、自动驾驶等场景的理想选择。

2025-03-29 14:52:04 641

原创 Ultralytics 框架中回调函数(Callbacks)支持

通过回调函数,Ultralytics 框架实现了训练流程的高度可定制化,用户可轻松扩展功能以满足工业检测、自动驾驶等复杂场景的需求。

2025-03-29 14:44:19 688

原创 Ultralytics 框架的 ​动态任务配置机制

Ultralytics 的动态任务配置机制通过模型驱动、参数化切换和模块化设计,为复杂场景下的多任务需求提供了高效解决方案。

2025-03-29 14:35:09 662

原创 Ultralytics 框架中 model.val() 方法返回的 metrics 对象的详细解析

通过 model.val() 返回的 metrics 对象,您可以全面掌握模型性能,快速定位优化方向。

2025-03-29 14:20:08 250

原创 Ultralytics 框架中 Model 与 Predictor 分离的设计解析与使用指南

通过 ​Model 与 Predictor 的分离设计,Ultralytics 框架在保持易用性的同时,为复杂任务提供了高度灵活的解决方案。开发者可根据需求选择内置组件或自定义扩展,平衡开发效率与性能优化。

2025-03-29 14:17:49 417

原创 Ultralytics 框架中 model.predict() 返回的 results 对象的详细解析

通过掌握 results 对象的使用方法,您可以快速实现模型部署、数据分析与可视化。

2025-03-29 14:13:15 269

原创 Ultralytics 框架中 model.val() 方法的详细解析

通过灵活配置 model.val() 参数,您可以精准评估模型性能,快速定位优化方向。

2025-03-29 14:10:10 347

迪米特法则LoD.zip

迪米特法则LoD.zip

2021-01-10

接口隔离原则ISP.zip

接口隔离原则ISP.zip

2021-01-10

单一原则SRP.zip

单一原则SRP.zip

2021-01-10

开闭原则OCP.zip

开闭原则OCP.zip

2021-01-10

里氏代换原则案例程序LSP.zip

里氏代换原则案例程序LSP.zip

2021-01-10

依赖倒转原则例子程序DIP.zip

依赖倒转原则例子程序DIP.zip

2021-01-10

gimp-master.zip|gimp-master.zip

GIMP对应源代码,里面有很多图像算法,如果想了解其中相关原理,可以参考学习一下,对大家肯定有帮助的

2020-10-17

Altera FPGA应用设计》配套资料

学习FPGA必须看的书,请下载吧,Altera FPGA应用设计》配套资料

2015-08-09

数字信号处理的FPGA实现_第三版中文及英文版

数字信号处理的FPGA实现_第三版中文及英文版,好书

2015-08-09

Linux_device_driver_src

宋宝华的《Linux设备驱动开发详解》第一版的源代码,人民邮电出版社,供有需要的同志使用。

2014-05-08

Linux设备驱动程序第三版(中文版+英文版+配套代.rar)

Linux设备驱动程序第三版(中文版+英文版+配套代)

2014-04-19

MSP430实现无线通信

好资料,大家来看看, ,,,,,,,,,,,,,,,,,,,,,,,,,,呵呵,关于MSP430实现短距离无线通信的

2009-03-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除