lewistrong-优快云博客

原创 x64 asm汇编记录

在进行分块矩阵的实验时，需要用到asm汇编的内容，做了几天的工作，在此进行一下记录；首先在x64上进行asm编码与x86时不同的，不能直接在C代码中进行嵌入，需要写一个.asm文件，然后在vs中设置成单独编译，这样就可以了；在调试的时候按alt+8打开反汇编窗口，可以将其中的汇编代码拷贝出来，然后就可以进行编译和修改了。

2017-12-12 16:59:34 557

原创 ARM NE10开源库的编译和运行

这两天搞这个ARM NE10开源库的验证工作，前前后后搞了两三天的时间，才把编译和运行搞定，现在形成文档备查。真正的第一手资料，网上关于这个的文章很少，需要帮助的朋友们，你们有福了。现在分享如下。1. 编译前的准备工作在编译前首先要下载NE10了，这个就不讲了，下载解压就行，因为是源代码，所以没有平台选择。NE10的编译工具是cmake，首先我们要安装cmake。NE10可以在

2014-02-22 16:34:55 5024

转载计算机书籍推荐

学计算机也有几年了，眼看明年就要毕业，在这里总结一下我看过的书，并推荐一些我认为好的书，还有一些是我听说好的但没看过的，也写在这里，对于下面的书，如果看过的我会按自己的读后感打一个分和一些评价，评分及供参考。如有问题，欢迎讨论。好的，现在开始：推荐度参考： 6分：可看可不看 7分：值得一读 8分：经典好书， 9分：强烈推荐，10分：神品级

2014-02-18 09:23:25 1391

转载 Big_Endian和Little_Endian

unicode big endian编辑目录1Big Endian解释2Big Endian示例图endian词源“endian”一词来源于乔纳森·斯威夫特的小说格列佛游记。小说中，小人国为水煮蛋该从大的一端（Big-End）剥开还是小的一端（Little-End）剥开而争论，争论的双方

2014-02-17 15:43:42 5927

转载 [转]结构体边界对齐问题

结构体边界对齐问题许多实际的计算机系统对基本类型数据在内存中存放的位置有限制，它们会要求这些数据的首地址的值是某个数k(通常它为4或8)的倍数，这就是所谓的内存对齐，而这个k则被称为该数据类型的对齐模数(alignment modulus)。当一种类型S的对齐模数与另一种类型T的对齐模数的比值是大于1的整数，我们就称类型S的对齐要求比T强(严格)，而称T比S弱(宽松)。这种强制的要求一来简

2014-02-14 09:31:42 576

原创 arm_android反汇编工作记录

这几天由于支持ipjone的需要，做了arm平台上的反汇编工作，由于汇编的东西较为复杂，所以需要形成文档，以备查阅。首先，使用的反编译工具是ndk提供的toolchains里的交叉编译工具gcc。我们选取目标平台是arm的arm-linux-androideabi-4.7，工具路径是%ANDROID_NDK%\toolchains\arm-linux-androideabi-4.7\prebu

2013-09-28 10:07:12 1679 1

原创一定要牢记Debug版本和Release版本的区别

这两天在支持iphone方面的本地引擎集成工作，遇到了效率问题，iphone5上识别一句话要10多秒，经过打log验证时MLP模块矩阵乘法的效率太低，neon效果不好，百思不得其解。苹果不应该这样啊，想不通。没办法，使用汇编语言来实现矩阵乘法，搞了两天，弄出来一个。结果最后发现之前竟然是Debug版本的，因此效率较低。等到换成Release版本的时候，效率问题迎刃而解。擦。

2013-09-27 20:17:51 715 1

这两天在做本地识别引擎往iphone上移植的事情，遇到一些困难。在移植工作基本完成后，遇到效率问题，识别引擎在iphone上识别效率特别低，在iphone5上识别一句话需要10s左右，经过在内核代码中打LOG发现时MLP模块的矩阵乘法耗时较多，大概是安卓设备上的10倍。因此定位到效率问题是因为iphone手机对neon指令的支持不是很好。做了一个实验：使用arm_neon.h中的指令和neon汇编

2013-09-25 11:32:04 671 1

CPU-GPU系统中基于剖分的全局性能优化方法.pdf

针对将应用移植到CPU-GPU异构并行系统上时优化策略各自分散、没有一个全局的指导思想的问题，提出了一种基于剖分的全局性能优化方法。该方法由优化策略库、剖分工具库和策略配置模块组成．优化策略库将应用移植到异构并行系统上的性能优化过程划分为访存级、内核加速级和数据划分级3级优化；针对3级优化剖分工具库提供了3级剖分机制，通过运行时的剖分技术获取剖分信息；策略配置模块根据所获取的信息指导用户在每级优化中选择合适的优化策略．实验证明，基于剖分的全局性能优化方法可以明确地指导将应用移植到CPU—GPU异构并行系统上的全局优化过程，利用该优化方法后，以矩阵相乘和傅里叶变换为例的应用性能提升明显，最终性能相对于访存级优化最高可提高30％左右．

2013-06-08

基于OpenCL的频繁项集挖掘研究

随着当今信息技术的高速发展，人们日常生产生活中产生的数据量呈现出爆发式增长。因此，对于海量数据集的处理已成为数据挖掘技术的主要挑战。而如何能以高性价比的方式挖掘到有价值的信息是目前数据挖掘研究的新课题。 GPu通用计算技术的R益成熟为数据挖掘技术的发展注入了新的动力。 GPU通过与CPu截然不同的发展路线，由当初的专用图形处理器一步步走进今天的通用计算领域，并且正在向传统架构的超级计算机发起挑战。很显然，数据挖掘这类计算密集型应用也必将受益于现代GPU所提供的廉价大规模并行计算能力。关联规则是数据挖掘的重要技术之一，而其中的频繁项集计算任务又是整个算法的核心，研究如何利用GPu通用计算技术来加速频繁项集挖掘具有一定的理论与实际意义。本文通过分析与总结过去关于频繁项集挖掘的研究成果，设计了一种基于OpencL的CPU+GPU异构执行的挖掘算法，利用OpenCL创建大规模并发线程来加速计算Apriori算法中的计算密集部分。实验采用OpenCL 的Java绑定接口来具体实现，并选择了同一级别的CPu与GPu用于改进后算法与原算法的性能对比测试。实验结果表明，改进算法对于稀疏数据集有更好的加速性能，并且随着支持度的降低，加速比呈现扩大趋势，最高达到约20倍。另外，本文初步讨论并实验了利用0penCL的LocalMemory机制来对事务数据的访问作进一步优化。不过，最后的测试结果表明这种改进仅对稠密数据集产生了约10％的性能提升。本文在最后还指出了一些未来值得进一步研究与改进的方向。

2013-06-08

基于OpenCL的异构系统并行编程

对异构处理器在传统通用计算中利用率低的问题，提出基于开放计算语言OpenCL(opencomputing language)的新的通用计算技术，它提供了统一的编程模型。介绍了OpenCL的特点、架构及实现原理等，并提出OpenCL性能优化策略。将OpenCL与计算统一设备架构CUDA(computeunified device architecture)及其它通用计算技术进行对比。对比结果表明，OpenCL能够充分发挥异构处理平台上各种处理器的性能潜力，充分合理地分配任务，为进行大规模并行计算提供了新的强有力的工具。

2013-06-08

GPU通用计算：计算领域的一次革命

自从NvIDIA公司在1999年发布GeForce 256图形处理芯片时首先提出GPU(Graphic Processing Unit)的概念，GPU 长期以来一直充当着CPU“助手”的角色，大部分的数据处理由 CPU负责计算，而GPU仅仅是根据API指定的函数对这些数据进行简单的加工，然后送到显示器上。但是，近年来随着大型游戏和3D技术在计算机领域的蓬勃发展，GPU的性能越来越强大，逐渐具备了可编程流水线、高密度并行处理等特性，许多GPU 的浮点运算能力已经超越了CPU，以目前最强的i7 975为例，其浮点运算能力也远远达不到HD 4850的ITF1ops(等效每秒一万亿次运算)，GPU超强的浮点运算能力为其实现通用计算打下了基础。

2013-06-08

带随机数MD5破解算法的GPU加速与优化

本文首先分析了传统体系结构上带随机数MD5的破解算法，对算法中任务进行划分以便映射到主机和GPU上；然后使用OpenCL实现了基于GPU的异构平台上的破解算法；最后针对特定的GPU平台对破解程序进行了优化。

2013-06-08

面向CPU-GPU异构并行系统的编程模型与编译优化关键技术研究

随着超大规模集成电路技术的不断进步，单芯片上集成了越来越多的晶体管，目前已达到10亿的量级。然而，受到CMOS工艺特征尺寸的限制，芯片的主频在达到4GHz之后继续提升的空间有限，多核并行逐渐成为提升处理器计算性能，同时也是充分利用丰富的片上资源的主要技术途径。4-8核的通用CPU目前已成为市场主流，而一些专用的处理器如流处理器则包含数十到数百个处理核心。本文选取目前非常流行也极具发展潜力的一种商用流处理器体系结构——GPU （Graphics Processing Unit）展开相关的研究。 GPU最初仅用于加速图形计算，因此其结构较通用CPU相对简单，不包含诸如分支预测、乱序执行等耗费芯片资源的复杂逻辑功能，而将晶体管资源更有效地用于增加并行执行的计算核心，以提升计算性能。GPU的峰值计算性能也因此远高于同时期的通用CPU。随着GPU指令级功能的逐步完善以及其编程界面的不断改进，GPU被越来越多地应用到非图形领域的计算，出现了一个全新的研究领域——GPGPU（General Purpose Computation on GPUs）。利用CPU和GPU 构建异构并行系统，以CPU提供通用的基础计算环境，GPU作为加速阵列提供强大的峰值计算能力，已成为高性能计算领域一个非常重要的发展趋势。目前， GPU已在高性能计算、桌面计算甚至嵌入式计算等多个领域得到了非常广泛的应用，因此有关CPU-GPU异构系统以及GPU本身的一系列研究课题也得到广泛关注，诸如编程模型、编译优化、可靠性优化以及低功耗优化等等。本课题从编程和编译的角度展开，首先研究了CPU-GPU异构并行系统的编程模型，然后针对 GPU的存储访问展开了深入的分析和优化研究，最后给出了所研究模型的编译实现和优化。

2013-06-08

支持OpenCL的GPU加速人工神经网络训练

工神经网络训练所包含的运算量随着网络中神经元的数量增多而加大，对于神经元较多的网络训练很耗时。提高人工神经网络训练速度的一个方法是对训练算法优化以减少计算量。由于人工神经网络训练算法包含大量的矩阵和向量运算，如果把优化的算法用运行在GPU上的OpenCLC语言实现，则训练速度相比传统基于CPU计算的实现会提高很多。从硬件的并行计算能力着手，以RPROP算法为例，对其运行在GPU上的 OpenCLC语言实现作一些研究。

2013-06-08

面向大规模科学计算的CPU-GPU异构并行技术研究

大规模科学计算对科学研究具有及其重要的意义，是计算机学科面临的重大任务。近年来，随着GPU硬件及其编程模型的快速发展，使用GPU来加速大规模科学计算应用己成为必然趋势。GPU擅长进行计算密集型操作，而且具有极高的性价比，非常适合高性能科学计算。然而，如何有效地把科学计算应用移植到 GPU上运行仍是一个很大的挑战。在由CPU和GPU构建的异构系统中，CPU负责进行复杂的逻辑运算和事务管理等不适合数据并行的计算，GPU负责进行计算密集度高、逻辑分支简单的大规模数据计算。本文从两个层面研究了面向大规模科学计算的CPU．GPU异构并行技术。首先，根据CPU—GPU异构平台的特性，本文提出了CPU．GPU任务划分和CPU．GPU间通信优化两种优化策略。在讨论任务划分时，本文给出了比例划分法、曲线拟合法和搜索法三种任务划分模型，各自适用用于不同的情况；在研究CPU—GPU间数据通信时，本文提出了中间结果复用和长流分段两种方法，从不同角度优化CPU．GPU的通信过程。其次，针对AMD GPU硬件及其编程模型Brook+的特性，本文提出了四种面向GPU的并行优化策略，包括平衡线程并行性和局部性、分支消除、开发指令级并行和提高访存带宽利用率。本文选取了矩阵乘、LU分解和Mgrid三个重要的科学计算程序，把它们移植到AMDGPU上运行，并使用本文提出的优化策略对各个程序进行了优化。经测试后发现，这三个程序的性能都得到了很大提升，说明本文提出的异构并行优化技术是非常有效的。本文的工作对在CPU．GPU异构平台上开发和优化科学计算应用具有一定的指导意义。

2013-06-08

HMM及其算法（前向，Viterbi，Baum-Welch）

在PPT中简单介绍了HMM，对其针对的三个主要工作及其算法进行了描述与说明，分别是评估——前向算法，解码——Viterbi算法，训练——Baum-Welch算法，希望可以帮到大家。

2012-11-26

基于CUDA的矩阵乘法和FFT性能测试

对NVIDIA公司的CUDA技术用Geforce8800GT在VisualStudi02008环境下进行测试，从程序运行时间比较判断CUBLAS库、CUDA内核程序、CUDA驱动API、C循环程序与Intel MKL库以及FFFW库与CUFFF库运行响应的差异。测试结果表明，在大规模矩阵乘法和快速傅里叶变换的应用方面，相对于CPU，利用GPU运算性能可提高25倍以上。

2013-06-08

OpenCL语言及编译技术分析

OpenCL(Open Compution Language)是一种全新的针对异构系统进行并行编程的应用程序接口(API)，有效利用系统中的所有计算资源。OpenCL采用运行时动态编译的方式来执行程序，灵活高效。

2013-06-08

基于信息熵和神经网络的语音端点检测算法研究

这篇论文先介绍了语音信号处理的一些背景知识，包括语音信号的特点、数字化和预处理等；然后简要描述了几种较为常见的VAD算法：基于短时能量和过零率的端点检测算法、基于LPC倒谱特征的VAD算法、基于HMM模型的VAD算法和频带方差检测法；然后详细讲述了信息熵的概念，并给出了音频幅度熵和谱熵的计算方法，描述了基于信息熵的音频端点检测算法，并给出了试验结果；最后讲述了神经网络的一些背景知识，并结合信息熵与神经网络（MLP）进行VAD的试验，给出了实验结果。

2016-07-18

基于GPU的并行支持向量机的设计与实现

1．在综述了当前高性能计算领域热门技术的基础上，选择GPU作为并行支持向量机的实现工具。在GPU编程方法方面，选择了OpenCL作为具体的代码实现技术，并搭建了GPU计算的实验平台和基于VisualStudio2010的OpenCL的开发环境。 2．介绍了支持向量机理论的基本原理及其数学模型，引出了SMO训练算法并对其进行了详细的说明。研究了LibSVM的使用方法，并在之前搭建的两个平台上做了实验仿真，以用来作为参照基准。 3．根据SVM训练和预测算法中的并行点，提出了用于多类分类器的并行支持向量机算法。通过分别对SVM训练算法、预测算法和涉及的矩阵运算分别采用并行运算，提高了多核计算机的运算效率，加快了SVM分类器的训练过程。对并行算法的性能进行了详细分析。 4．利用OpenCL编写了并行支持向量机程序，并对程序实现过程中的一些重要步骤，如数据预处理、设备初始化、程序初始化和缓存、内存分配和命令列队优化等进行了详细的介绍。对进一步提高GPU的效率进行了深入的探讨。 5．利用LibSVM处理训练样本，编写了基于CPU Timer的时间测量工具，最后给出了基于GPU的并行支持向量机的仿真实验结果，并与LibSVM的仿真数据进行了对比，验证了并行算法的有效性。

2013-06-08

基于GPGPU的高效AES彩色数字图像加密技术的研究与实现

由于人们对信息安全的．逐步重视，加解密技术一直是研究的热点。各种加密算法相继问世，但加解密算法的安全性与复杂性始终是两个不可调和的矛盾体，在加解密速度和安全性上无法做到两全其美。因此目前有很多安全的加密算法，但由于其复杂性受个人计算机有限的计算能力限制，无法做到快速的加解密，从无法得到普片的运用。

2013-06-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

xiaoxio006的专栏

原创 x64 asm汇编记录

原创 ARM NE10开源库的编译和运行

转载计算机书籍推荐

转载 Big_Endian和Little_Endian

转载 [转]结构体边界对齐问题

原创 arm_android反汇编工作记录

原创一定要牢记Debug版本和Release版本的区别

原创吸取教训：做事情一定要要形成文档

CPU-GPU系统中基于剖分的全局性能优化方法.pdf

基于OpenCL的频繁项集挖掘研究

基于OpenCL的异构系统并行编程

GPU通用计算：计算领域的一次革命

带随机数MD5破解算法的GPU加速与优化

面向CPU-GPU异构并行系统的编程模型与编译优化关键技术研究

支持OpenCL的GPU加速人工神经网络训练

面向大规模科学计算的CPU-GPU异构并行技术研究

HMM及其算法（前向，Viterbi，Baum-Welch）

基于CUDA的矩阵乘法和FFT性能测试

OpenCL语言及编译技术分析

基于信息熵和神经网络的语音端点检测算法研究

基于GPU的并行支持向量机的设计与实现

基于GPGPU的高效AES彩色数字图像加密技术的研究与实现

空空如也