- 博客(8)
- 资源 (22)
- 收藏
- 关注
原创 x64 asm汇编记录
在进行分块矩阵的实验时,需要用到asm汇编的内容,做了几天的工作,在此进行一下记录;首先在x64上进行asm编码与x86时不同的,不能直接在C代码中进行嵌入,需要写一个.asm文件,然后在vs中设置成单独编译,这样就可以了;在调试的时候按alt+8打开反汇编窗口,可以将其中的汇编代码拷贝出来,然后就可以进行编译和修改了。
2017-12-12 16:59:34
517
原创 ARM NE10开源库的编译和运行
这两天搞这个ARM NE10开源库的验证工作,前前后后搞了两三天的时间,才把编译和运行搞定,现在形成文档备查。真正的第一手资料,网上关于这个的文章很少,需要帮助的朋友们,你们有福了。现在分享如下。1. 编译前的准备工作在编译前首先要下载NE10了,这个就不讲了,下载解压就行,因为是源代码,所以没有平台选择。NE10的编译工具是cmake,首先我们要安装cmake。NE10可以在
2014-02-22 16:34:55
4918
转载 计算机书籍推荐
学计算机也有几年了,眼看明年就要毕业,在这里总结一下我看过的书,并推荐一些我认为好的书,还有一些是我听说好的但没看过的,也写在这里,对于下面的书,如果看过的我会按自己的读后感打一个分和一些评价,评分及供参考。如有问题,欢迎讨论。好的,现在开始:推荐度参考: 6分:可看可不看 7分:值得一读 8分:经典好书, 9分:强烈推荐 ,10分: 神品级
2014-02-18 09:23:25
1314
转载 Big_Endian和Little_Endian
unicode big endian编辑目录1Big Endian解释2Big Endian示例图endian词源“endian”一词来源于乔纳森·斯威夫特的小说格列佛游记。小说中,小人国为水煮蛋该从大的一端(Big-End)剥开还是小的一端(Little-End)剥开而争论,争论的双方
2014-02-17 15:43:42
663
转载 [转]结构体边界对齐问题
结构体边界对齐问题许多实际的计算机系统对基本类型数据在内存中存放的位置有限制,它们会要求这些数据的首地址的值是某个数k(通常它为4或8)的倍数,这就是所谓的内存对齐,而这个k则被称为该数据类型的对齐模数(alignment modulus)。当一种类型S的对齐模数与另一种类型T的对齐模数的比值是大于1的整数,我们就称类型S的对齐要求比T强(严格),而称T比S弱(宽松)。这种强制的要求一来简
2014-02-14 09:31:42
553
原创 arm_android反汇编工作记录
这几天由于支持ipjone的需要,做了arm平台上的反汇编工作,由于汇编的东西较为复杂,所以需要形成文档,以备查阅。首先,使用的反编译工具是ndk提供的toolchains里的交叉编译工具gcc。我们选取目标平台是arm的arm-linux-androideabi-4.7,工具路径是%ANDROID_NDK%\toolchains\arm-linux-androideabi-4.7\prebu
2013-09-28 10:07:12
1638
1
原创 一定要牢记Debug版本和Release版本的区别
这两天在支持iphone方面的本地引擎集成工作,遇到了效率问题,iphone5上识别一句话要10多秒,经过打log验证时MLP模块矩阵乘法的效率太低,neon效果不好,百思不得其解。苹果不应该这样啊,想不通。没办法,使用汇编语言来实现矩阵乘法,搞了两天,弄出来一个。结果最后发现之前竟然是Debug版本的,因此效率较低。等到换成Release版本的时候,效率问题迎刃而解。擦。
2013-09-27 20:17:51
683
1
原创 吸取教训:做事情一定要要形成文档
这两天在做本地识别引擎往iphone上移植的事情,遇到一些困难。在移植工作基本完成后,遇到效率问题,识别引擎在iphone上识别效率特别低,在iphone5上识别一句话需要10s左右,经过在内核代码中打LOG发现时MLP模块的矩阵乘法耗时较多,大概是安卓设备上的10倍。因此定位到效率问题是因为iphone手机对neon指令的支持不是很好。做了一个实验:使用arm_neon.h中的指令和neon汇编
2013-09-25 11:32:04
638
1
基于信息熵和神经网络的语音端点检测算法研究
2016-07-18
支持OpenCL的GPU加速人工神经网络训练
2013-06-08
面向大规模科学计算的CPU-GPU异构并行技术研究
2013-06-08
面向CPU-GPU异构并行系统的编程模型与编译优化关键技术研究
2013-06-08
基于OpenCL的异构系统并行编程
2013-06-08
基于OpenCL的频繁项集挖掘研究
2013-06-08
基于GPU的并行支持向量机的设计与实现
2013-06-08
基于GPGPU的高效AES彩色数字图像加密技术的研究与实现
2013-06-08
基于CUDA的矩阵乘法和FFT性能测试
2013-06-08
带随机数MD5破解算法的GPU加速与优化
2013-06-08
OpenCL语言及编译技术分析
2013-06-08
GPU通用计算:计算领域的一次革命
2013-06-08
CPU-GPU系统中基于剖分的全局性能优化方法.pdf
2013-06-08
HMM及其算法(前向,Viterbi,Baum-Welch)
2012-11-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人