机器学习--第十三讲--梯度下降

本文介绍了如何处理专业高尔夫球手的数据集pga.csv,并通过规范化distance和accuracy字段以准备用于机器学习任务。规范化过程包括计算平均值和标准差,之后进行数据可视化。

1.数据的介绍

我们的数据集pga.csv包含专业高尔夫球手的两列统计数据,accuracy 和distance。 accuracy 是测量在球场上多次挥杆的命中百分比,distance是测量平均挥杆球的距离。我们的目标是使用距离来预测精度。

对于机器学习算法而言,数据被使用之前,重要的是规模,或者正规化。这里我们在球场上测量的distance,和测量的百分比accuracy,这两个领域非常不同,会学习算法的时候产生偏差。许多算法计算两者间的欧氏距离。如果一个特征会远大于另一个特征,那么距离就会偏向特定的特征。使数据正规化,对每个值,减去每个平均值,然后除以标准差

规范数据后,绘制数据视觉图

说明:

这一步是演示,练习代码或者直接跳转到下一步

import  pandas 

import matplotlib.pyplot as plt

%matplotlib inline

#read data from csv

pga=pandas.read_csv("pga.csv")

#normalize the data

pga.distance=(pga.distance-pga.distance.mean())/pga.distance.std()

pga.accuracy=(pga.accurac-pga.accuracy.mean())/pga.accuracy.std()

print(pga.head())

plt.scatter(pga.distance,pga.accuracy)

plt.xlabel("normalized distance")

plt.ylabel("normalized accuracy")

plt.show()

 

 

转载于:https://my.oschina.net/Bettyty/blog/780033

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值