Python中的向量化编程

image

在Andrew Ng的<< Machine Learning >>课程中,多次强调了使用向量化的形式进行编码,在深度学习课程中,甚至给出了编程原则:尽可能避免使用for循环而采用向量化形式。该课程采用的是matlab/octave语言,所擅长的方向正是数值计算,语言本身内置了对矩阵/向量的支持,比如:

a = log(x)

如果变量x是一个数值,那么a也会得到一个数值结果,如果x是一个矩阵,那么结果a也是一个矩阵。

但是对于机器学习领域广为使用的python语言而言,并没有内置这样的功能,毕竟python是一门通用语言。好消息是,借助一些第三方库,我们也可以很容易的处理向量数值运算。

Numpy是Numerical Python的缩写,是Python生态系统中高性能科学计算和数据分析所需的基础软件包。 它是几乎所有高级工具(如Pandas和scikit-learn)的基础。TensorFlow使用NumPy数组作为基础构建模块,在这些模块的基础上,他们为深度学习任务(大量进行长列表/向量/数值矩阵的线性代数运算)构建了张量对象和图形流。

许多Numpy运算都是用C实现的,相比Python中的循环,速度上有明显优势。所以采用向量化编程,而不是普通的Python循环,最大的优点是提升性能。另外相比Python循环嵌套,采用向量化的代码显得更加简洁。

下面就用一些简单的示例进行说明:

import numpy as np
import time

a = np.random.rand(1000000)
b = np.random.rand(1000000)

tic = time.time()
c = np.dot(a, b)
toc = time.time()
print("c: %f" % c)
print("vectorized version:" + str(1000*(toc-tic)) + "ms")

c = 0
tic = time.time()
for i in range(1000000):
    c += a[i] * b[i]
toc = time.time()
print("c: %f" % c)
print("for loop:" + str(1000*(toc-tic)) + "ms")

在我的电脑上运行结果如下:

c: 249981.256724
vectorized version:0.998973846436ms
c: 249981.256724
for loop:276.798963547ms

可见,向量化的实现代码速度上有飞速提升,而且代码也看起来更简洁。

总之,无论你有多长的数据列表并需要对它们进行数学转换,都强烈考虑将这些Python数据结构(列表或元组或字典)转换为numpy.ndarray对象并使用固有的矢量化功能。

更多关于numpy向量化编程的指导,可以参考这本开源的在线书籍:From Python to Numpy

image)

### Python 中实现文本向量化的方法 #### 使用 CountVectorizer 进行词袋模型向量化 在 `sklearn` 库中的 `feature_extraction.text` 模块提供了多种工具用于文本预处理和特征提取。其中,`CountVectorizer` 类可以用来创建基于词频的词袋模型(Bag of Words, BoW)。这种方法会统计文档中每个单词出现的次数并构建一个矩阵。 ```python from sklearn.feature_extraction.text import CountVectorizer corpus = [ '我喜欢使用Python', 'Python是一种强大的编程语言' ] vectorizer = CountVectorizer() X = vectorizer.fit_transform(corpus) print(vectorizer.get_feature_names_out()) print(X.toarray()) ``` 上述代码展示了如何通过 `CountVectorizer` 对一组语料库进行向量化操作[^3]。 #### 利用 Doc2Vec 获取固定长度的文本向量表示 除了传统的词袋方法外,还可以采用更先进的分布式表示法如 Word2Vec 或者它的扩展版本 Doc2Vec 来获得更好的效果。Gensim 是一个非常流行的支持这些技术的第三方库,在 gensim.models.doc2vec 下提供了一个简单易用接口来进行 doc2vec 的训练与应用。 ```python import gensim from nltk.tokenize import word_tokenize model = gensim.models.Doc2Vec.load('pretrained_model') # 加载预先训练好的Doc2Vec模型 test_text = "我 喜欢 使用 Python" vector = model.infer_vector(word_tokenize(test_text)) print(vector) ``` 这里展示的是加载已经训练完成的 Doc2Vec 模型,并调用 `infer_vector()` 函数为新的输入文本生成对应的向量表示[^2]。 #### TF-IDF 向量化改进版 Bag-of-Words 为了克服单纯依赖于频率计数所带来的局限性,TF-IDF (Term Frequency-Inverse Document Frequency) 被引入作为衡量词语重要性的度量标准之一。它可以有效地减少那些频繁但在不同文件间普遍存在的词汇的影响权重;同时增加具有区分能力关键词的重要性。Scikit-Learn 提供了 TfidfTransformer 和 TfidfVectorizer 工具来简化这一过程: ```python from sklearn.feature_extraction.text import TfidfVectorizer tfidf = TfidfVectorizer() response = tfidf.fit_transform(corpus).toarray() print(response) ``` 这段脚本说明了怎样运用 Scikit-Learn 的 `TfidfVectorizer` 将文本数据集转化为加权后的稀疏矩阵形式[^4]。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

云水木石

但行好事,莫问前程

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值