- 博客(14)
- 资源 (1)
- 收藏
- 关注
原创 clangd cmake cuda配置问题踩坑
1. clangd 报错 --option-file, --gencode=--generate-code=arch=compute_75,code=[compute_75,sm_75], 这类问题,原因在于clangd 和 nvcc的命令行指令不太一样,在项目根目录下新建一个.clangd文件,然后写下下面这个进行屏蔽就好。
2025-02-10 16:26:37
239
原创 Intel tbb库多线程加速踩坑
将并行的loops_num 加到5000, 加速比就能显著提升了,大致为14倍,由于开启多线程也有开销,只能无限接近16倍。在CPU端加速时,发现加速比一直上不去,甚至出现并行速度比串行慢10倍以上的情况。分析:由于并行的计算部分相当简单,这其实是IO密集型任务,加核其实没有任何作用。CPU为 移动端 AMD 7945HX,16个物理核,32个线程。运行结果为, 16线程,加速比仅有2倍,这显然不对劲。
2025-01-15 17:22:34
273
原创 windows安装cgal, vtk, libigl
确保已经安装cmake,vsstudio,vcpkg,切换到vcpkg的安装目录我的是D:\Program_Files\vcpkg在命令行打开进入到这个文件夹输入下面的指令安装cgal。
2025-01-13 16:49:46
403
原创 LLama3 rope的pre_compute_freqs_cis函数理解
因为对于一行长度为dim = 64 的Q/K向量来说,在rope编码中是按照复数形式组织的。为方便描述,设定Q/K的大小为[512, 64], 即长度为512, 每行64个元素。,得到 [1, ..., 0.0] 按一定比例分配的弧度角度,如下,dim缩写为d。为什么是最大长度512的两倍?为什么是矩阵乘,因为M其实是个向量,theta也是一个向量。结论: freqs_cis是最终得到的。, 总共就是dim/2个角度值,如图所示。这个是得到长度的绝对位置信息,如下。计算得到相乘的编码角度信息,如下。
2025-01-08 11:53:47
247
原创 windows 部署llama3.0.cpp
在cmd上查看这些安装情况,输入cmake --version, 查看cmake是否安装,如果没有安装,参考这个,再次输入cmake --version。
2024-12-03 21:48:58
1487
原创 2D STL 三角面片提取轮廓
然后是2D 线段提取的完整实现,这里的话我是以acii码形式读取的STL文件,感兴趣的小伙伴也可以改成读取二进制形式的STL。3. 再选取其他的线段作为其实线段,判断一下该线段的两个端点是否被记录,没有被记录那么就是别的轮廓,再按照1、2中的操作就行。2. 找到这个轮廓之后,使用并查集算法,迭代访问当前节点的下一个节点,将每个节点记录到数组中,这样就完成了轮廓的提取。1. 选取一个起始线段,根据线段的两个端点,寻找下一个线段,将找过的节点进行记录。,根据这个,就可以读取边的信息,如图。
2024-10-24 12:27:39
780
原创 qt vtk使用vtkOrientationMarkerWidget显示坐标轴
然后在 MainWindows.cpp 中使用 vtkSmartPointer::New()使用 vtkOrientationMarkerWidget时,不要使用局部智能指针,这样使用完成之后会自动析构,导致在Qt的窗口中无法显示。解决办法,提前在MainWindows.h 中声明该类型。
2024-09-29 21:07:41
444
原创 CMake 配置 VTK9.3和qt5.12.12环境(不要使用vckpkg install vtk[qt])
使用cmake 构建 vtk qt
2024-09-16 13:43:52
1395
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人