
opencl
叶广明_微信ye_guangming
这个作者很懒,什么都没留下…
展开
-
深度卷积神经网络CNNs的多GPU并行框架及其应用
摘要:本文是腾讯深度学习系列文章之一,主要聚焦于腾讯深度学习平台(Tencent Deep Learning Platform)中深度卷积神经网络Deep CNNs的多GPU模型并行和数据并行框架。【编者按】深度卷积神经网络有着广泛的应用场景,本文对深度卷积神经网络Deep CNNs的多GPU模型并行和数据并行框架做了详细的分享,通过多个Worker Group实现了数据并行,同一Worker转载 2014-08-20 21:07:38 · 1922 阅读 · 0 评论 -
OpenCL 第7课:旋转变换(1)
旋转是一个常用的处理功能。图片中所有的点以某一个点为轴,顺时或逆时方向旋转N个角度。我们利用OpenCL就可以对图片中所有的点进行并行转换,大大提高效率。上两节中,我们编写了CL文件来传递数组的地址,这一节中我们会多加入几个参数传递。首先我们先来看下图片旋转的原理。这里我们假设图片的旋转是以图片的中心点为轴。也就是(width/2,height/2)这个点。旋转的角度是任意值。图片旋转会出转载 2014-04-21 17:39:03 · 1044 阅读 · 0 评论 -
OpenCL
OpenCL(全称Open Computing Language,开放运算语言)是第一个面向异构系统通用目的并行编程的开放式、免费标准,也是一个统一的编程环境,便于软件开发人员为高性能计算服务器、桌面计算系统、手持设备编写高效轻便的代码,而且广泛适用于多核心处理器(CPU)、图形处理器(GPU)、Cell类型架构以及数字信号处理器(DSP)等其他并行处理器,在游戏、娱乐、科研、医疗等各种领域都有广转载 2014-04-06 16:41:05 · 1400 阅读 · 0 评论 -
Install OpenCL on Debian, Ubuntu and Mint orderly
Libraries – can’t have enoughIf you read different types of manuals how to compile OpenCL software on Linux, then you can get dizzy of all the LD-parameters. Also when installing the SDKs from AMD转载 2014-04-08 15:11:32 · 2596 阅读 · 0 评论 -
Getting started with OpenCL and GPU Computing
OpenCL (Open Computing Language) is a new framework for writing programs that execute in parallel on different compute devices (such as CPUs and GPUs) from different vendors (AMD, Intel, ATI, Nvidia e转载 2014-04-08 15:10:01 · 1401 阅读 · 0 评论 -
OpenCL 第8课:旋转变换(2)
上两节课都是对一个数组进行处理。这节我们来个有意思的。同样是旋转。但我们旋转的对象是张(256*256)的图片。图片旋转45度,旋转后大小还是256*256,超出部份进行剪除。 图片旋转处理有个特别的地方。buf_A是存储源图数据(R,G,B颜色分量),buf_B是存储旋转后数据。我们不能简单将buf_A中的数据直接计算旋转后位置。而是遍历buf_B每个数据,计算那些数据旋转后存在这个位置转载 2014-04-21 17:39:39 · 1080 阅读 · 0 评论 -
OpenCL 第6课:矩阵转置
上一节我们写了个一维向量相加的程序。这节我们来看一个4×4矩阵转置程序。4X4矩阵我们采用二维数组进行存储,在程序设计上,我们让转置过程分4次转置完成,就是一次转一行。注意这里的OpenCL的工作维数是二维。(当然用一维的方式也可以,只是在CL代码中要用到循环,效率不高)程序分两部份:(1)transposition.cl代码?12345转载 2014-04-21 17:38:06 · 1306 阅读 · 0 评论 -
OpenCL “速成”冲刺【第一天】
话说软件开发从来没有速成一说,一门语言你学的越快,说明你在别的语言上下个功夫越多,所以这次加了引号,只不过几周之后可能会有一个公司内部OpenCL的考核,虽然本人不需要考核,不过也正好借机整理下之前OpenCL的经验,一方面帮着下别的同事,一方面也给自己留点干活。这个教程针对有一点C/C++开发经验的童鞋,如果没有太多经验,我建议还是先去学学C语言。这个是wiki上OpenCL的定义,转载 2014-04-06 16:41:31 · 898 阅读 · 0 评论 -
《OpenCL异构计算》新版中译本派送中!
《OpenCL异构计算1.2》新鲜出炉,目前市面上仍一书难求!我们已向清华出版社订购到第一批新书。关注异构开发社区,积极参与,就有可能免费获取新书!1.如果您异构社区的老朋友,请关注:10.1假期后我们将陆续向2013 7月-12月社区月度、季度达人免费派送新书,以答谢您一直以来的参与与支持;或,在9月-12月期间,入选异构社区优秀博文和论坛帖的作者也将免费获得新书!2.如果您刚刚开始异构转载 2014-04-06 12:23:13 · 973 阅读 · 0 评论 -
AMD GPU+VS2010的OpenCL配置
安装开发环境可以参照DE4-530的OpenCL开发环境搭建(最终版),这篇文章的大部分内容转载自:http://www.verydemo.com/demo_c92_i226325.htmlAMD的Heterogeneous Computing有很多AMD的OpenCL资料,包括各种分析工具,是个很不错的OpenCL学习站点。因为该文章写的还不错,所以就偷懒直接转载过来了,当然还加转载 2014-04-06 12:21:50 · 912 阅读 · 0 评论 -
详细程序注解学OpenCL一 环境配置和入门程序
本专栏是通过注解程序的方法学习OpenCL,我觉得一个一个地去抠原理也不是办法,干脆直接学习程序,然后把相关原理都直接注解到程序语句当中。原创地址:http://blog.youkuaiyun.com/kenden23/article/details/14101657一开始要配置好环境,我的是nvidia,所以就按照我的电脑举例,AMD应该也差不多。1. 首先要到nvidia网站下载适合你显卡的最转载 2014-04-06 12:19:53 · 1040 阅读 · 0 评论 -
《Mali OpenCL SDK v1.1.0》教程样例之一“Hello World”
1、算法简述 实现矩阵相加:Cn = An + Bn。这个例子虽然很简单,但是由于矩阵元素之间相互独立,每个元素可以非常容易地进行并行计算,可以非常理想地在OpenCL中实现。2. C/C++实现 [cpp] view plaincopyprint?/* * This confidential and proprieta转载 2014-04-06 12:18:23 · 1119 阅读 · 0 评论 -
Hadoop+GPU强强联手的性能探索
摘要:Hadoop并行处理可以成倍地提高性能,GPU也日益成为计算任务的重要分担者,Altoros Systems研发团队一直致力于探索Hadoop+GPU的可能性,以及在实际的大规模系统中的实现,这篇文章就是他们的部分研究成果。Hadoop并行处理可以成倍地提高性能。现在的问题是如果将一部分计算工作从CPU迁移到GPU会怎么样?能否更快理论上,这些处理如果经过了并行计算的优化,在GPU上执行转载 2014-04-06 12:08:42 · 1226 阅读 · 0 评论 -
OpenCL的安装与配置
Windows 步骤 1:在 http://developer.amd.com/pages/default.aspx根据相应的操作系统,下载最新的 AMD driver, AMD APP SDK。AMD APP SDK目前支持Windows VISTA[32][64]bit,Windows 7[32][64]bit操作系统。步骤 2:如果已经安装了低版本的 SDK,需要先进行卸转载 2014-04-08 14:38:37 · 3090 阅读 · 0 评论 -
Differences from OpenCL 1.1 to 1.2
This article will be of interest if you don’t want to read the whole new specifications [PDF] for OpenCL 1.2.As always, feedback will be much appreciated.After many meetings with the many me转载 2014-04-08 15:54:57 · 2586 阅读 · 0 评论 -
Ubuntu下使用AMD APP编写OpenCL程序
对于Ubuntu或其近亲(Lubuntu、Kubuntu、Mint等)编写OpenCL程序也不会太难。由于本例用的是AMD APP SDK,因此需要AMD的GPU以及相关驱动。首先,去AMD官网下载GPU驱动——AMD Catalyst。如果你用的是APU并且还有一块独立显卡的话,通过AMD Catalyst Control Center可以选择使用哪个GPU。像我现在用的联想Z475笔记本,搭载转载 2014-04-08 16:08:58 · 1727 阅读 · 0 评论 -
A饭福利,AMD Mantle API获众多游戏开发商青睐!
摘要:Videocardz整理了一份2014年—2015年支持AMD Mantle游戏列表,并公布了游戏开发商及游戏引擎的名称。已发布且支持Mantle的游戏主要有《战地4》、《神偷4》、《植物大战僵尸:花园战争》以及《狙击精英3》这四款。现如今,越来越多的3A游戏加入支持AMD Mantle API的行列。这不,国外媒体Videocardz为大家整理了一份2014年—2015年支持Mantl转载 2014-07-15 09:27:59 · 1004 阅读 · 0 评论 -
AMD迎接变革:加速OpenCL的未来
摘要:AMD在北京中关村皇冠假日酒店举办了以"迎接变革:加速进入OpenCL 的未来"为主题的技术培训。AMD Firepro显卡资深产品经理JC、OpenCL资深讲师陆教授、谢博士与大家探讨OpenCL技术将如何引领变革、铸造计算新纪元。4月11日,AMD在北京中关村皇冠假日酒店举办了以"迎接变革:加速进入OpenCL 的未来"为主题的技术培训。本次活动邀请到AMD Firepro显卡资深产转载 2014-07-11 14:19:10 · 855 阅读 · 0 评论 -
从桌面到移动:异构计算翻天覆地的技术变革
摘要:在智能手机上,强大的计算单元,不仅仅是CPU一颗,还包含了GPU、DSP等器件。在传统的台式电脑中,异构计算已经说了好多年了。这篇文章有点长,但值得静下心来慢慢阅读。从桌面到移动,这是关于异构计算的技术变革。在今天智能手机领域中有这样一个趋势,美国Qualcomm公司提倡使用DSP去处理手势操作、陀螺仪等传感器所需的计算任务。这可以帮助CPU分担部分计算任务,又节省了电能的消耗。现在很多转载 2014-07-11 14:01:08 · 1351 阅读 · 0 评论 -
让AMD在中国发声 APU14技术创新大会首次在华召开
今日,AMD一年一度的开发者峰会“APU2014”在北京拉开帷幕,这也是AMD首次在美国之外的城市举办该活动。AMD全球副总裁、大中华区董事总经理潘晓明表示,大中华区是AMD重要的战略区域,AMD希望通过本次活动在中国制造巨大的声音,让大家感受到AMD不屈不挠的精神,AMD永远在创新。 本次活动AMD将与大中华区的媒体、客户与A饭一同分享AMD的前沿技术与最新产品。 AM转载 2014-07-11 14:45:57 · 871 阅读 · 0 评论 -
65种GPU性能测试,AMD开源驱动领先!
摘要:近日,Phoronix测试了65 种不同的GPU使用开源驱动的OpenGL性能,测试的GPU型号包括Intel HD Graphics、AMD Radeon、AMD FirePro和NVIDIA GeForce系列。结果显示,相比之下,AMD开源驱动领先于NVIDIA。【编者按】2014年的开源图形驱动程序在图形密集程序下的表现如何?近日,Phoronix测试了65 种不同的GPU使用开转载 2014-06-06 14:21:49 · 2272 阅读 · 0 评论 -
显卡常识 电脑显卡基础知识普及
我们组装电脑的时候肯定需要考虑到显卡性能,如果电脑配置中的显卡性能不行,那么电脑肯定玩不了大型游戏。可能一些新电脑用户对显卡一点也不了解,我们下面来详细介绍一下电脑显卡的基础知识。 一、显卡简介 显卡是个人电脑最基本组成部分之一。显卡的用途是将计算机系统所需要的显示信息进行转换驱动,并向显示器提供行扫描信号,控制显示器的正确显示,是连接显示器和个人电脑主板的重要元件,是“人机对转载 2014-04-12 21:00:30 · 2725 阅读 · 0 评论 -
如何学习开源项目及Ceph的浅析
摘要:开源技术的学习和采用确实存在着一定门槛,然而学习各种开源项目已经成为许多开发者不可回避的工作内容。那么,对于类似OpenStack的大型开源项目,开发者该如何着手,这里我们看章宇的分享。【编者按】在 上一届OpenStack Summit报道中,我们有提过,OpenStack已得到IBM、HP、RedHat等公司的鼎力支持,而截至2013年底, 在短短不到4年的时间,其社区已遍及转载 2014-04-11 11:23:17 · 947 阅读 · 0 评论 -
代码面试最常用的10大算法
摘要:面试也是一门学问,在面试之前做好充分的准备则是成功的必须条件,而程序员在代码面试时,常会遇到编写算法的相关问题,比如排序、二叉树遍历等等。在程序员的职业生涯中,算法亦算是一门基础课程,尤其是在面试的时候,很多公司都会让程序员编写一些算法实例,例如快速排序、二叉树查找等等。本文总结了程序员在代码面试中最常遇到的10大算法类型,想要真正了解这些算法的原理,还需程序员们花些功夫。1转载 2014-04-11 11:21:46 · 919 阅读 · 0 评论 -
GCC: Compiling an OpenCL host on Windows
I just wanted to try out using OpenCL under Windows.Abstract: I got an "undefined reference to" error when I tried to compile (using the command gcc my.o -o my.exe -L "C:\Program Files (x86)转载 2014-04-10 18:06:33 · 1992 阅读 · 0 评论 -
开发中的“软”与“硬”:高画质移动游戏开发之道
摘要:游戏的效果不仅与游戏引擎的渲染相关,与硬件优化也有千丝万缕的联系。一款基于芯片优化的移动游戏界面,甚至可以堪比视频游戏的视觉效果。高通半导体事业部资深经理刘晓光从软硬件两个层面分享了移动游戏开发之道。在今年的Unity亚洲开发者大会上,高通公司半导体事业部资深经理刘晓光从硬件芯片、引擎优化、OpenGL ES 3.0支持,以及开发工具等角度,分享了如何软硬件双管齐下,开发及优化出优秀的移转载 2014-04-24 09:09:57 · 1075 阅读 · 0 评论 -
Ubuntu12.10中安装ati显卡驱动amd driver 13.1
1. 先安装依赖库[plain] view plaincopyprint?sudo apt-get install build-essential cdbs dh-make dkms execstack dh-modaliases fakeroot libqtgui4 debhelper debconf libstdc++6 dkms libqtgui4 libel转载 2014-04-08 18:59:03 · 1177 阅读 · 0 评论 -
OpenCL 2.0发布,带来更强悍的异构计算能力
摘要:Khronos Group本周一发布了OpenCL 2.0,可为显示芯片提供更好的独立性,以便能为通用软件计算出更大的力。该组织已经发布了2.0的临时标准,预计正式版本的发布要等到6个月以后。Khronos小组于本周一(7月22日)发布了OpenCL 2.0版本,该版本可为显示芯片提供更好的独立性,以便能为通用软件计算出更大的力。OpenCL是让显示芯片也能为通用软件提供计算能力的标准,转载 2014-04-06 12:07:56 · 1100 阅读 · 0 评论 -
OpenCL用于计算机领域的13个经典案例
摘要:当使用加速器和OpenCL时,哪种类型的算法更加快速?来自弗吉尼亚理工大学的Wu Feng教授和他的团队例举了一份算法列表,分享了OpenCL常被用于计算机领域的13个经典案例。哪种算法可以最好的映射GPU及矢量处理器呢?换句话说,当使用加速器和OpenCL时,哪种类型的算法更加快速?来自弗吉尼亚理工大学的Wu Feng教授和他的团队例举了一份算法列表,分享了OpenCL常被用于计算转载 2014-04-06 12:04:19 · 1590 阅读 · 0 评论 -
AMD发布APPML源码,构建clMath库
摘要:日前,AMD将加速并行处理数学库(Accelerated Parallel Processing Math Library简称APPML)开源,内容包含了BLAS和FFT的OpenCL实现,项目托管在GitHub上,命名为clMath,该项目基于Apache2.0许可证下发行。APPML和Bolt两大项目的主要技术负责人Kent Knox(他在AMD任职已有15年)在AMD开发者博客上发转载 2014-04-06 12:07:21 · 967 阅读 · 0 评论 -
OpenCL memory object 之选择传输path
对应用程序来说,选择合适的memory object传输path可以有效提高程序性能。 下面先看一写buffer bandwidth的例子: 1. clEnqueueWriteBuffer()以及clEnqueueReadBuffer() 如果应用程序已经通过malloc 或者mmap分配内存,CL_MEM_USE_HOST_PTR是个理想的选择。有两种使转载 2014-04-05 18:18:11 · 924 阅读 · 0 评论 -
OpenCL memory object 之 Global memory (2)
当我们用clCreateBuffer, clCreateImage创建OpenCL memory object时候,我们需要输入一个flag参数,这个参数决定memory object的位置。cl_mem clCreateBuffer (cl_context context, cl_mem_f转载 2014-04-05 18:17:43 · 1254 阅读 · 0 评论 -
初探 C# GPU 通用计算技术
GPU 的并行计算能力高于 CPU,所以最近也有很多利用 GPU 的项目出现在我们的视野中,在 InfoQ 上看到这篇介绍 Accelerator-V2 的文章,它是微软研究院的研究项目,需要注册后才能下载,感觉作为我接触 GPU 通用运算的第一步还不错,于是去下载了回来。 在安装包里,包含了几个例子程序,比如著名的 Life 游戏,不过,Life 游戏,相对于刚接触 GPU 运算的我转载 2014-04-05 18:41:38 · 4385 阅读 · 0 评论 -
基于GPU的K-Means聚类算法
聚类是信息检索、数据挖掘中的一类重要技术,是分析数据并从中发现有用信息的一种有效手段。它将数据对象分组成为多个类或簇,使得在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别很大。作为统计学的一个分支和一种无监督的学习方法,聚类从数学分析的角度提供了一种准确、细致的分析工具。而k-means算法是最常用和最典型的聚类算法之一,k-means算法是典型的基于距离的聚类算法,采用距离作为相似性转载 2014-04-05 18:32:57 · 4332 阅读 · 0 评论 -
VS2008+OpenCL环境配置
1. 配置.cl文件支持:1.1. 打开VS2008, 工具->选项->文本编辑器->文件扩展名,添加一个新的扩展名,指定编辑器为Microsoft Visual C++ 。这样在OpenCL文件中就能显示C++的语法高亮了。1.2. 配置OpenCL语法高亮- 打开目录~\NVIDIA Corporation\NVIDIA GPU Computing SDK\OpenCL\doc 可转载 2014-04-05 18:32:42 · 952 阅读 · 0 评论 -
OpenCL memory object 之 Global memory (1)
这篇日志是学习AMD OpenCL文档时候的总结。 OpenCL用memory object在host和device之间传输数据,memory object由runtime(运行库,driver的一部分)来管理。 OpenCL中的内存对象包括buffer以及image,buffer是一维数据元素的集合。image主要用来存储一维、二维、三维图像、纹理或者framebuffer转载 2014-04-05 18:17:07 · 1163 阅读 · 0 评论 -
AMD 5XXX 系列显卡的 peak bandwidth计算
在ATI Stream Computing Programming Guide中,例举了AMD 5系列显卡的参数信息。我比较关注其中Peak bandwidths的计算,以便在opencl程序测试bandwidth利用率。下面,我以5870为例,探讨一下如何计算得到这些结果: L1 cache的 peak bandwidth(L1ALU) = compute units* Wav转载 2014-04-05 18:16:23 · 1304 阅读 · 0 评论 -
基于OpenCL的mean filter性能
1.对于一个标准的3*3 均值滤波,kernel代码如下:使用buffer/image缓冲对象__kernel void filter(__global uchar4* inputImage, __global uchar4* outputImage, uint N){ int x = get_global_id(0); int y = get_global_id(1); in转载 2014-04-05 18:14:22 · 1103 阅读 · 0 评论 -
[转]在Windows 下使用OpenCL
目前,NVIDIA和AMD的Windows driver均有支援OpenCL(NVIDIA的正式版driver是从195.62版开始,而AMD则是从9.11版开始)。NVIDIA的正式版driver中包含OpenCL.dll,因此可以直接使用。AMD到目前为止,则仍需要安装其SDK才有OpenCL.dll档。不过,在最新的SDK中,NVIDIA和AMD使用的calling conven转载 2014-04-05 18:13:34 · 810 阅读 · 0 评论 -
OpenCL快速入门教程
OpenCL快速入门教程原文地址:http://opencl.codeplex.com/wikipage?title=OpenCL%20Tutorials%20-%201翻译日期:2012年6月4日星期一 这是第一篇真正的OpenCL教程。这篇文章不会从GPU结构的技术概念和性能指标入手。我们将会从OpenCL的基础API开始,使用一个小的kernel作为例子来讲解基本的计算管理。转载 2014-04-05 18:10:41 · 871 阅读 · 0 评论