【脚本语言系列】关于Python机器学习scikits-learn，你需要知道的事

最新推荐文章于 2022-09-12 20:14:10 发布

Allen Moore

最新推荐文章于 2022-09-12 20:14:10 发布

阅读量507

点赞数

CC 4.0 BY-SA版权

分类专栏：脚本语言文章标签： python scikit 脚本语言机器学习

本文链接：https://blog.youkuaiyun.com/MosesAaron/article/details/70599427

脚本语言专栏收录该内容

129 篇文章

订阅专栏

本文介绍如何使用scikits-learn进行机器学习实验，包括安装方法、基本计算示例及简单的聚类分析步骤。聚类分析部分通过下载股票数据并应用亲和传播算法来演示如何对数据进行分组。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

如何使用scikits-learn

使用easy_install或pip安装scikits-learn

pip install -U scikit-learn
easy_install -U scikit-learn

* 简单计算样例

from sklearn import datasets

boston_prices = datasets.load_boston()
print "Data shape", boston_prices.data.shape
print "Data max = %s min = %s" %(boston_prices.data.max(), boston_prices.data.min())
print "Target max = %s min = %s" %(boston_prices.target.max(), boston_prices.target.min())

这里写图片描述
* 简单聚类分析
1. 下载股票数据

start = datetime.datetime(2011, 01, 01)
end = datetime.datetime(2012, 01, 01)

quotes = [finance.quotes_historical_yahoo_ochl('^GSPC', start, end, asobject=True, adjusted=True) for symbol in symbols]

close = numpy.array([q.close for q in quotes]).astype(numpy.float)
print close.shape

2. 计算亲和度矩阵

logreturns = numpy.diff(numpy.log(close))
print logreturns.shape

logreturns_norms = numpy.sum(logreturns ** 2, axis = 1)
S = -logreturns_norms[:, numpy.newaxis]-logreturns_norms[numpy.newaxis,:]+2*numpy.dot(logreturns, logreturns.T)

3. 亲和传播聚类

aff_pro = sklearn.cluster.AffinityPropagation().fit(S)
labels = aff_pro.labels_

for i in xrange(len(labels)):
     print "%s in Cluster %d" % (symbols[i],labels[i])