- 博客(11)
- 收藏
- 关注
原创 【论文阅读】TileLang: A Composable Tiled Programming Model for AI Systems
现代人工智能工作负载在很大程度上依赖于优化的计算内核进行训练和推理。这些人工智能内核遵循定义良好的数据流模式,例如在DRAM和SRAM之间移动瓦片,并在这些瓦片上执行一系列计算。然而,尽管这些模式很清晰,但编写高性能内核仍然很复杂。实现峰值性能需要仔细,虽然特定于领域的编译器试图减轻编写高性能内核的负担,但它们经常在可用性和表现力方面存在差距。在本文中,我们提出了一个广义的平铺编程模型TileLang,用于更有效的AI内核编程。
2025-12-03 10:42:58
1033
原创 【论文阅读】Triton: An Intermediate Language and Compiler for Tiled Neural Network Computations
在深度学习领域,新的研究思想的验证和部署通常受到某些基本原语的有效计算内核的可用性的限制。特别是,无法利用现有供应商库的操作。(例如,cuBLAS、cuDNN)面临设备利用率低下的风险,除非由专家编写自定义实现-通常以牺牲可移植性为代价。开发新的编程抽象,以最小的性能成本指定自定义深度学习工作负载已经变得至关重要。我们介绍Triton,一种围绕瓦片概念的语言和编译器,即,静态形状的多维子阵列。
2025-12-02 16:31:21
701
原创 vscode使用tensorboard进行profile性能分析
本文介绍了如何在VSCode中使用TensorBoard插件进行服务器端开发的性能可视化分析。方法包括:安装TensorBoard插件,通过命令窗口启动,选择日志文件夹路径,即可在VSCode中查看训练性能图表。该工具可分析整体性能、Kernel耗时和内存使用情况,帮助开发者定位代码瓶颈并进行针对性优化,避免了下载文件到本地的繁琐步骤。
2025-10-20 18:55:58
574
原创 点云投影到图像python+opencv实现
本文主要实现的是读取一张照片和一张 pcd, 根据标定的内参和外参,将点云投影到图像中,用于判断雷达相机外参标定是否准确。提示:环境安装,这里需要导入三个库cv2,numpy,open3d安装环境记得自己换源,使用pip在终端安装的时候记得把VPN关掉。安装open3d的时候可能会遇到pip版本比较低的问题,直接更新就好了提示:以下是本篇文章正文内容,下面案例可供参考。
2024-04-30 15:35:29
4905
5
原创 Matlab雷达和相机联合标定
提前准备好同时时间下的图像和点云数据(通过同步采集获得),标定板是没有白边的,使用环境:matlab 2021b
2024-04-30 15:28:41
2372
5
原创 海康威视工业相机Linux SDK开发指南详细步骤(Ubuntu20.04+单目、双目相机单次、连续拍照)
由于实验需要使用双目相机同步采集图像,实验室准备的设备是海康威视的工业相机,对其进行二次开发,其中花了大部分时间查找资料,以及代码进行反复调试,最后到达了想要的效果,并写博客记录一下。
2023-05-11 15:15:15
25127
2
原创 ubuntu截图快捷键设置
这里系统原本有六个对应的快捷键方式,点击对应的快捷键组合方式,输入自己想要的组合间即可。我这里只修改了其中的一个,将任意窗口的截图修改成了在windows下常用的方式,大家可以根据自己的习惯进行修改。1.在系统的左下角,找到系统设置,并找到键盘快捷键里面的截图。
2023-05-05 10:53:30
907
原创 ubuntu下通过鼠标右键创建txt文件
3.将生成的空白文本文件保存即可,之后就可以在文件夹中通过右键创建txt文档。2.在模板文件夹下打开终端,输入命令。1.进入主目录,打开模板文件夹。
2023-05-05 10:37:45
3370
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅