机器学习算法——归一化数值

最新推荐文章于 2023-01-12 09:10:12 发布

原创最新推荐文章于 2023-01-12 09:10:12 发布 · 3.6k 阅读

1 ·

CC 4.0 BY-SA版权

机器学习专栏收录该内容

5 篇文章

订阅专栏

本文详细介绍了数据预处理中的一个重要步骤——数据归一化。通过使用Python的numpy库实现了一个具体的归一化函数，该函数能够计算数据集的最小值、最大值以及取值范围，并据此将原始数据转换到指定区间内，便于后续的数据分析和机器学习任务。

#coding=utf-8
__author__ = 'whf'
import numpy
from kNN import file2matrix
from numpy import *

def autoNorm(dataSet):
    #将每列的最小值放在minVals中
    minVals = dataSet.min(0)
    #将每列的最大值放在maxVals中
    maxVals = dataSet.max(0)
    #计算可能的取值范围
    ranges=maxVals-minVals
    #创建新的返回矩阵
    normDataSet = zeros(shape(dataSet))
    #得到数据集的行数  shape方法用来得到矩阵或数组的维数
    m = dataSet.shape[0]
    #tile:numpy中的函数。tile将原来的一个数组minVals，扩充成了m行1列的数组
    #矩阵中所有的值减去最小值
    normDataSet = dataSet - tile(minVals,(m,1))
    #矩阵中所有的值除以最大取值范围进行归一化
    normDataSet = normDataSet/tile(ranges,(m,1))
    #返回归一矩阵 取值范围 和最小值
    return normDataSet,ranges,minVals