数据探索:从鲍鱼年龄到玻璃类型的多场景分析
1. 数据标准化与鲍鱼问题的平行坐标图
在数据处理中,将数据标准化到标准差为 1.0 并不意味着所有数据都落在 -1.0 到 +1.0 之间。标准化更多是将数据框的上下边界大致置于 -1.0 和 +1.0,但很多数据会超出这个范围。
对于鲍鱼问题,我们要探索属性之间以及属性与标签(鲍鱼年龄,以壳环数量表示)的关系。之前处理岩石与地雷数据时,彩色编码的平行坐标图能直观展示关系,但对于鲍鱼这个回归问题,需要对方法进行修改。在岩石与地雷的分类问题中,平行坐标图根据真实分类对数据行进行颜色编码,而鲍鱼问题是回归问题,这里的颜色编码要对应目标值的高低。为了给实数值分配颜色,先将实数值压缩到 [0.0, 1.0] 区间,以下是实现代码:
__author__ = 'mike_bowles'
import pandas as pd
from pandas import DataFrame
import matplotlib.pyplot as plot
from math import exp
target_url = ("http://archive.ics.uci.edu/ml/machine-"
"learning-databases/abalone/abalone.data")
# 读取鲍鱼数据
abalone = pd.read_csv(target_url,header=None, prefix="V")
abalone.columns = ['Sex', 'Length', 'Diameter', 'Height',
超级会员免费看
订阅专栏 解锁全文
15

被折叠的 条评论
为什么被折叠?



