向量化

最新推荐文章于 2024-09-04 23:30:14 发布

程序之巅

最新推荐文章于 2024-09-04 23:30:14 发布

阅读量1.3w

点赞数

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/zhuguiqin1/article/details/79341097

注，本文是在学习吴恩达老师（Andrew Ng）网易公开课课程的的学习总结和理解，希望与君共勉！

先看一个例子

import numpy as np

import time

a = np.random.rand(1000000)
b = np.random.rand(1000000)
tic = time.time()
c = np.dot(a,b)
toc = time.time()
print("Vectorized version:" + str(1000*(toc-tic))+"ms" + " c =" + str(c) )
c = 0
tic = time.time()
for i in range(1000000):
    c += a[i]*b[i]
toc = time.time()
print("For loop:" + str(1000*(toc-tic))+"ms" + " c =" + str(c) )

执行结果：

Vectorized version:3.00002098083ms c =250202.521816
For loop:653.000116348ms c =250202.521816

从执行结果来看向量化的程序运行速度要比非向量化的程序块250倍左右，为什么是向量化的程序运行速度会快很多呢？

可扩展深度学习是在GPU上做的，但是GPU和CPU都含有并行化指令有时也叫SIMD（single instruction multiple data）指令。如果你使用这样的内置函数np.dot 或者np.functions,或者其它能让你去掉显式for循环的函数，这样python的numpy能够充分利用并行化能更加快速的计算这点对GPU和CPU上面计算都是成立的,GPU更加擅长SIMD计算但是CPU实际上也不差，
只是没有GPU擅长而已。
实际编程的法则是只要有可能就不能显式的使用for循环。