
深度学习编译器
文章平均质量分 87
Luchang-Li
为什么要博客呢?一是为了记录学习,在写作中增强对知识认知深度,二是为了传播知识本身。
正如自动驾驶的不同层级一样,一个人对知识的掌握也分为了很多层级,比如我认为:
L0:对一个东西没有任何认知。
L1:大致了解基本概念,能够使用,但不知道内部深层次的原理,没法表达清楚。
L2: 基本知道内部的原理,能够比较流畅地表达出来。但能够书面表达往往不意味着能够口头表达,比如能写出PPT,但是不意味着能讲好PPT。
L3:能够流畅地,深入浅出地口头表达,能够准确地回答别人的问题和质疑。
所以可见,表达(不管是博客这种书面还是口头表达)是能够加深你对知识的架构化认知,表达地清晰与否也直接证明了你的认知深度
展开
-
GPU CUDA进行高性能reduce计算的几种方法
GPU CUDA进行高性能reduce计算的几种方法原创 2024-09-11 16:52:01 · 965 阅读 · 0 评论 -
卷积计算转换为矩阵乘计算的几种场景和方法
卷积转矩阵乘原创 2023-04-17 09:09:03 · 2861 阅读 · 0 评论 -
ZeroQuant与SmoothQuant量化总结
ZeroQuant SmoothQuant量化总结原创 2023-03-16 14:43:53 · 7616 阅读 · 5 评论 -
矩阵乘GPU性能优化之split k
矩阵乘splitk性能优化原创 2023-01-13 15:15:27 · 3116 阅读 · 0 评论 -
端侧GPU opencl cast算子
端侧GPU opencl cast算子实现原创 2022-12-23 11:13:42 · 369 阅读 · 0 评论 -
winograd卷积实践
winograd卷积实践原创 2022-11-28 16:54:12 · 2803 阅读 · 0 评论 -
深度学习性能优化之图优化
这里总结了深度学习模型常见的部分图优化,有一些现有的深度学习框架已经有了,有些是作者的独特发现,现有深度学习框架还没有。原创 2022-09-11 18:56:35 · 5463 阅读 · 0 评论 -
transpose算子优化的几种常见场景
transpose算子优化的几种常见场景原创 2022-09-07 09:05:10 · 1694 阅读 · 0 评论 -
2D Transpose算子GPU实现和优化
2D Transpose算子GPU实现和优化原创 2022-09-03 08:04:16 · 899 阅读 · 1 评论 -
flatbuffer基础教程
flatbuffer基础教程原创 2022-08-16 10:25:50 · 4056 阅读 · 0 评论 -
端侧GPU基于opencl实现reduce算子
端侧GPU基于opencl实现reduce算子原创 2022-08-03 15:30:33 · 1343 阅读 · 0 评论 -
tflite模型转换和量化
tflite模型转换和量化原创 2022-06-12 17:10:21 · 3802 阅读 · 0 评论 -
Winograd算法实现卷积原理
Fast Algorithms for Convolutional Neural NetworksWinograd算法实现卷积原理原创 2022-05-21 15:46:02 · 3932 阅读 · 0 评论 -
im2col+gemm实现卷积基础
im2col+gemm实现卷积基础NCHW/NHWC到NC1HWC0数据格式图解原创 2022-05-10 15:08:30 · 3984 阅读 · 0 评论 -
MatMul矩阵乘法优化基础
MatMul矩阵乘法优化基础原创 2022-02-26 21:39:41 · 948 阅读 · 0 评论 -
NVIDIA GPU SM和CUDA编程理解
本文旨在加深理解GPU底层硬件架构以及硬件如何执行CUDA 程序的细节,并且反过头来进一步指导CUDA程序的编写。原创 2021-11-13 22:08:20 · 7947 阅读 · 2 评论 -
onnx runtime参考
onnx runtime结构和插件机制原创 2021-04-11 11:25:55 · 1793 阅读 · 0 评论 -
Conv2D + batch normalization (BN) 融合
基本原理:利用卷积的线性性,将bn融合到conv2d的kernel和附加一个biasaddconv2d原理https://towardsdatascience.com/conv2d-to-finally-understand-what-happens-in-the-forward-pass-1bbaafb0b148conv2d+bn融合bn的gamma, betta, mean, var都是一个维度跟conv2d output channel维数相同的向量...原创 2021-04-08 20:49:47 · 3570 阅读 · 0 评论 -
polyhedral model schedule tree
TVMpolyhedraldslfusion代码生成code genllvm原创 2020-08-12 23:29:52 · 1075 阅读 · 0 评论