记录“归一化”方法

 

归一化(标准化):Z-score标准化方法;min-max标准化

更为复杂的方法为【重新缩放法】,出自:http://www.nohup.cc/article/166/#menu_index_2

【Z-score标准化方法】

标准化方法有一个好处:python里面的numpy包中有求矩阵均值,标准差等统计参数的函数,很方便。

 

其中,x,\bar{x},\sigma,x{}' 分别表示原矩阵中需要归一化的输入数据,原矩阵数据的均值,原矩阵数据的标准差,归一化后的输出数据。

在python中利用 numpy,实现。

假设,样本含有n个因素,共有m个样本,即可以组成 m*n,矩阵。

归一化如下:

def Normalization(self):
        self.martix = open_the_file()  #打开数据文件函数
        u = np.mean(self.martix, axis=0) # axis=0,计算每一列的均值
        v = np.std(self.martix, axis=0) # axis=0计算每一列的标准差
        for j  in range(self.M):
            for i  in range(self.N):
                self.martix[j][i] = (self.martix[j][i] - u[i]) / v[i]

【min-max标准化】

x{}'=\frac{x-min(x)}{max(x)-min(x)}

mix(x)为此列的最小值,max(x)为此列的最大值,x{}'归一化后的值。

import numpy as np

a = np.loadtxt(r'C:\Users\happy\test1.txt') #3*7的数组
max_martix = a.max(0) #0代表按照列比较;1代表按行比较
min_martix = a.min(0)
deff_value = max_martix - min_martix
for i  in range(0,2): 
    for j  in range(0,7):
        a[i][j] = (a[i][j] - min_martix[j]) / deff_value[j]

 

### 股票数据分析中的归一化技术 对于股票数据而言,选择合适的归一化技术至关重要。这不仅有助于提升模型的表现,还能确保不同特征间的比较更加公平合理。 #### 1. 标准化 (Z-Score Normalization) 标准化是种常见的线性变换方法,它会将数据调整到均值为0、标准差为1的标准正态分布形式[^4]。这种方法非常适合用于那些假设输入变量服从高斯分布的算法,比如支持向量机和支持向量回归等。然而,在应用于股票价格预测时需要注意的是,由于股价本身并不严格遵循正态分布特性,因此可能需要谨慎评估其适用性。 ```python from sklearn.preprocessing import StandardScaler scaler = StandardScaler() data_standardized = scaler.fit_transform(data) ``` #### 2. 最小-最大缩放 (Min-Max Scaling) 最小-最大缩放能够把数值范围限定在个固定的区间内,默认情况下通常是\[0, 1\][^4]。这种做法特别适合于那些对极端值敏感度较低且希望保持原有数据形态不变的情况下使用。考虑到金融市场的波动性和不确定性因素较多,采用这种方式可以在定程度上减少异常点带来的干扰效应。 ```python from sklearn.preprocessing import MinMaxScaler min_max_scaler = MinMaxScaler(feature_range=(0, 1)) data_minmax_scaled = min_max_scaler.fit_transform(data) ``` #### 3. 对数返回率 (Log Returns) 除了传统的归一化手段外,针对时间序列类型的股票交易记录还可以考虑运用对数收益率来进行预处理操作[^3]。通过对连续两天收盘价取自然对数后再求差值得到的结果作为新的观测样本,既保留了原始趋势信息又有效缓解了个股间规模差异造成的影响问题。 ```python import numpy as np log_returns = np.log(data / data.shift(1)).dropna() ``` #### 4. 差分法 (Differencing) 当面对非平稳的时间序列数据集时,可以通过做次或多次的阶差分来尝试达到稳定状态的目的。此过程简单来说就是用当前时刻的价值减去前刻对应的数值从而形成个新的序列集合。该策略尤其适用于存在明显周期模式或者长期增长/下降轨迹的情形之中。 ```python diff_data = data.diff().dropna() ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Foneone

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值