python实现数据预处理之箱光滑

本文介绍了一种处理噪声数据的方法,并通过分箱技术对数据进行了平滑处理。针对给定的数据集,首先去除噪声,然后使用箱均值、箱中位数和箱边界三种方法对数据进行平滑。提供了完整的Python代码实现。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

题目: 给定一个数据集waitakere.txt,该数据集中含有大量的噪音数据。具体操作要求:1)该数据集的偶数位均为噪音数据,判断偶数位是否为0,若为0,利用1替换。2)对转换后的数据集进行排序,利用分箱技术来光滑数据。假设有10个桶,实现“用箱均值光滑”、 “用箱中位数光滑”、“用箱边界光滑”三种技术。
waitakere.txt:
这只是一部分数据,只是为了示例噪音数据

1 0 3 2 0 3 
4 0 1 0 0 0
0 0 0 1 0 0
0 0 0 0 7 0
0 8 9 0 9 0
0 6 0 5 0 3
6 0 7 0 1 0
......

解题思路:首先读入数据到列表里,然后对数据进行排序,将数据划分到10个箱中。对于箱均值光滑,箱中每一个值都被替换为箱中的均值。对于箱中位数光滑,箱中每一个值都被替换为箱中的中位数。对于箱边界光滑,箱中每一个值都被替换为最近的边界值。
以下为python代码实现部分:

import numpy as np
def binning(filename,box_num):
    my_list=[]
    my_list1=[]
    noise_data = open(filename) 
    for line in noise_data.readlines():
        dataline=line.strip()
        my_list.append(dataline)
    for i in range(0,len(my_list)):
        my_list[i]=int(my_list[i])
        if (i+1) % 2==0 and my_list[i]==0:
            my_list[i]=1
    my_list1=sorted(my_list)
    #print my_list1
    box_list=[]
    len_box=int(np.ceil(len(my_list1)/float(box_num)))
    for i in range(0,10):
        each_box=my_list1[i*len_box:(i+1)*len_box]
        box_list.append(each_box)
    return box_list
def box_mean_smooth(box_list):
    for i in range(0,len(box_list)):
        box_avg=int(np.average(box_list[i]))
        for j in range(0,len(box_list[i])):
            box_list[i][j]=box_avg
    return box_list

def box_mid_smooth(box_list):
    for i in range(0,len(box_list)):
        box_mid=int(np.median(box_list[i]))
        for j in range(0,len(box_list[i])):
            box_list[i][j]=box_mid
    return box_list

def box_boundary_smooth(box_list):
    for i in range(0,len(box_list)):
        left_bdy=box_list[i][0]
        right_bdy=box_list[i][-1]
        for j in range(0,len(box_list[i])):
            if abs(box_list[i][j]-left_bdy)<abs(box_list[i][j]-right_bdy):
                box_list[i][j]=left_bdy
            else:
                box_list[i][j]=right_bdy
    return box_list

filename='waitakere.txt'
box_list=binning(filename,10)
print box_list
print box_mean_smooth(box_list)
print box_mid_smooth(box_list)
print box_boundary_smooth(box_list)

下图为实验结果截图:
由于数据较多,截图只是一部分
这里写图片描述

### 使用局部薄盘光滑样条法 (TLPS) 对气象数据进行预处理 #### 方法概述 局部薄盘光滑样条法(Thin Plate Spline, TPS),也称为局部薄盘光滑样条法(TLPS),是一种用于多维插值和平滑的技术。该方法特别适用于空间分布的数据,如气象观测站记录的温度、湿度等参数。通过引入径向基函数,TPS能够在保持全局平滑的同时捕捉到局部变化。 #### 实现步骤说明 为了使用 TLPS 进行气象数据预处理,通常会遵循以下流程: 1. **准备输入数据** 需要收集来自不同地理位置的时间序列气象数据集。确保每一条记录都包含了精确的空间坐标(x,y),以及对应的测量值z(例如气温)[^1]。 2. **构建模型矩阵** 利用径向基函数创建设计矩阵Φ,其中每个元素φ_ij表示第i个样本点至第j个控制点之间的距离平方根的对数值ln(||x_i-x_j||)+c。这里的常量c是为了防止当两个位置重合时出现未定义的情况而加入的小正数偏移[^4]。 3. **求解系数向量** 设定目标是最小化残差平方和RSS=∑[(y-f(x))^2]+λ∫f''(t)^2dt,这里f代表待估计的曲面;第二项为惩罚因子λ乘以积分形式下的二次导数模长之和,旨在抑制过度拟合并促进整体平滑度。最终得到一组最优权重w使得上述损失函数达到极小值[^3]。 4. **预测新地点处的响应变量** 给定任意一个新的地理坐标p=(px,py), 可以计算其相对于所有已知站点的距离d_k=sqrt((px-xk)^2+(py-yk)^2),进而利用之前获得的最佳权重组合来推断未知点上的预期读数yp=wT*phi(d)[^2]。 #### Python代码示例 以下是采用Python编程语言实现的一个简单例子,展示了如何运用SciPy库中的`Rbf`类来进行二维平面内的TPS建模与外推: ```python import numpy as np from scipy.interpolate import Rbf def thin_plate_spline(x, y, z, xi, yi): """Compute the interpolated values using Thin Plate Splines.""" # Create radial basis function interpolator instance with 'thin-plate' kernel. rbfi = Rbf(x, y, z, function='thin_plate') # Interpolate data at target locations defined by `xi`, `yi`. zi = rbfi(xi, yi) return zi if __name__ == "__main__": # Example usage of TPS interpolation on synthetic dataset. # Define some sample points and their associated scalar field value. x_observed = np.array([0., 1., 2., 3., 4.]) y_observed = np.array([0., 0., 0., 0., 0.]) z_values = np.sin(np.pi * x_observed / 4.) # Specify grid over which we wish to interpolate. ngridpoints = 50 x_new = np.linspace(-1., 5., num=ngridpoints) y_new = np.zeros_like(x_new) # Perform actual interpolation. z_interpolated = thin_plate_spline( x=x_observed, y=y_observed, z=z_values, xi=x_new, yi=y_new ) print("Interpolated Values:", z_interpolated) ```
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值