Wrynn<Wang>-优快云博客

原创【分享NVIDIA GTC技术干货】Developing Robust Multi-Task Models for AV Perception [SE50006]

主讲人提出了一种基于伪标签的半监督学习策略，用于提高自动驾驶领域中的多任务学习模型性能。使用伪标签可以有效地解决数据不平衡和领域差异等问题，提高模型的泛化能力。通过在线和离线伪标签的混合使用，可以获得更高质量的伪标签，从而进一步提高模型性能。离线伪标签的方式在实验中表现出更好的性能，并且伪标签生成质量可以通过深度引导来进一步提高[mIoU from 68.15 to 68.64]。混合使用在线和离线伪标签的策略比纯使用在线或离线伪标签的策略在实验中表现更好[mIoU from 74.2% to 78%]。

2023-03-23 08:00:00 339

原创多系统启动盘

1. Ventoy。

2023-03-14 22:17:36 112

原创 CUDA编程 7 总结【参加CUDA线上训练营】

总之，cuda是一个非常强大的并行计算框架，可以加速很多种类型的应用程序，特别是对于数据密集型计算，cuda可以帮助你提高程序的效率，提高生产力。在CUDA中，程序员将设备代码划分为多个小任务，称为线程，并将这些线程组成多个线程块，以便进行并行处理。在cuda编程中，你可以使用CUDA内置的原子操作函数，例如atomicAdd()，atomicMin()等，以执行各种不同的原子操作。原子操作可以是简单的加法，减法，比较，以及位运算，它们可以保证线程安全，避免了数据不一致的情况。

2023-02-14 02:46:35 267

原创 CUDA编程 5 执行流和运行库【参加CUDA线上训练营】

CUDA流是由多个线程组成的，线程以块的形式运行在一个计算单元上，每个线程执行一个Kernel。它提供了一个简单易用的接口，使用者可以方便地调用cuBLAS库中的函数，而不需要关注底层的实现细节。此外，cuBLAS还支持多GPU环境，可以在多个GPU之间进行分布式计算，从而加速大规模的计算任务。使用CUDA流编写代码需要遵循一些原则，包括对线程块的组织，对共享存储器的管理，以及对错误的处理。总的来说，cuBLAS是一个高效实用的CUDA平台上的线性代数库，是加速科学计算和工程应用的重要工具。

2023-02-14 02:14:29 268

原创 CUDA编程 6 原子操作【参加CUDA线上训练营】

atomicCAS：对全局内存的指定位置执行比较并交换操作，并返回该位置的旧值。atomicMax：对全局内存的指定位置执行取最大值操作，并返回该位置的旧值。atomicExch：对全局内存的指定位置执行交换操作，并返回该位置的旧值。atomicXor：对全局内存的指定位置执行位异或操作，并返回该位置的旧值。atomicAnd：对全局内存的指定位置执行位与操作，并返回该位置的旧值。atomicOr：对全局内存的指定位置执行位或操作，并返回该位置的旧值。使用原子操作可以提高应用程序的并行性和效率。

2023-02-14 01:50:35 572

原创 CUDA编程 4 错误检测，事件及存储单元【参加CUDA线上训练营】

流中的任意点都可以通过API插入事件以及查询事件完成的函数，只有事件所在流中其之前的操作都完成后才能触发事件完成。在Cuda编程中，通常会使用尽量小的存储单元，提高程序的性能。利用共享存储单元加速矩阵乘法的思路是，将一个矩阵分块，并将每一块的部分数据加载到共享存储单元中，以便在单个 CUDA 核心中重复访问多次。Cuda编程模型中的事件。加载数据到共享存储单元中：每个 CUDA 核心加载其对应的小矩阵中的数据到共享存储单元中。通过使用共享存储单元，可以减少对全局存储单元的访问，从而提高矩阵乘法的性能。

2023-02-14 01:20:35 692