数据预处理进阶第一题数据归约

最新推荐文章于 2025-08-05 17:20:40 发布

莲理枝99

最新推荐文章于 2025-08-05 17:20:40 发布

阅读量220

点赞数 1

CC 4.0 BY-SA版权

文章标签： python 机器学习 matplotlib

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/m0_63521554/article/details/130669887

该文讨论了数据归约在大数据分析中的作用，包括数据立方体聚集、维归约等策略。重点在于数值归约的无参方法，通过直方图展示不同年龄群体的发病次数，以减少数据量的同时保持信息的关键特征。提供的代码示例展示了如何使用Python处理数据并绘制年龄发病次数的直方图。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

任务描述

本关任务：使用直方图展示不同年龄的发病次数。

相关知识

数据仓库中往往存有海量数据，在其上进行复杂的数据分析与挖掘需要很长的时间，数据归约可以用来得到数据集的归约表示，它小得多，但可以产生相同的（或几乎相同的）分析结果。

数据归约策略

数据归约策略：

数据立方体聚集；
维归约；
数据压缩；
数值归约；
离散化和概念分层产生。

用于数据归约的时间不应当超过或“抵消”在归约后的数据上挖掘节省的时间。

数据立方体聚集与维归约

数据立方体聚集

最底层的方体对应于基本方体，基本方体对应于感兴趣的实体。在数据立方体中存在着不同级别的汇总，数据立方体可以看成方体的格，每个较高层次的抽象将进一步减少结果数据。

数据立方体提供了对预计算汇总数据的快速访问，使用与给定任务相关的最小方体，在可能的情况下，对于汇总数据的查询应当使用数据立方体。

维归约

通过删除不相干的属性或减少数据量。属性子集选择，找出最小属性集，使得数据类的概率分布尽可能的接近使用所有属性的原分布，减少出现在发现模式上的属性的数目，使得模式更易于理解。

启发式的（探索性的）方法：

逐步向前选择；
逐步向后删除；
向前选择和向后删除相结合；
判定归纳树。

数据压缩与数值归约

数据压缩

数据压缩可分为有损压缩和无损压缩。

字符串压缩有广泛的理论基础和精妙的算法，通常是无损压缩，在解压缩前对字符串的操作非常有限。

音频/视频压缩，通常是有损压缩，压缩精度可以递进选择，有时可以在不解压整体数据的情况下，重构某个片断。

两种有损数据压缩的方法：小波变换和主要成分分析。

数值归约

通过选择替代的、较小的数据表示形式来减少数据量。

① 有参方法：使用一个参数模型估计数据，最后只要存储参数即可。

② 线性回归方法：Y=α+βX

多元回归：线性回归的扩充；
对数线性模型：近似离散的多维数据概率分布。

③ 无参方法：

直方图；
聚类；
选样。

编程要求

请仔细阅读右侧代码，结合相关知识，在 Begin-End 区域内进行代码补充，使用数值规约的无参方法中的直方图展示不同年龄的发病次数。

图片生产要求如下：

设置图片大小 figsize=(10,10)；
图形保存到 Task1/img/T1.png。

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

def student():

train = pd.read_csv('Task1/diabetes_null.csv', na_values=['#NAME?'])

train['Insulin'] = train['Insulin'].fillna(100)

train['SkinThickness'] = train['SkinThickness'].fillna(train['SkinThickness'].median())

train['BloodPressure'] = train['BloodPressure'].fillna(train['BloodPressure'].median())

train['BMI'] = train['BMI'].fillna(train['BMI'].mean())

train['Glucose'] = train['Glucose'].fillna(train['Glucose'].mean())

#********* Begin *********#

plt.figure(figsize=(10,10))

x=pd.Series(train['Age'])

count=x.value_counts()

count.plot(kind='bar',color=['r','g','b'])

plt.savefig("Task1/img/T1.png")

plt.show()

#********* End *********#

博客等级

码龄4年

1
原创

1
点赞

1
收藏

1
粉丝

关注

私信

热门文章

数据预处理进阶第一题数据归约 220

最新评论

数据预处理进阶第一题数据归约
优快云-Ada助手: 恭喜您写下了第一篇博客！数据预处理是一个非常重要的领域，而数据归约也是其中不可或缺的一部分。期待您能够进一步深入探究这个话题，为我们带来更多有价值的知识。加油！推荐【每天值得看】：https://bbs.youkuaiyun.com/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
数据预处理进阶第一题数据归约
优快云-Ada助手: 恭喜你这篇博客进入【优快云每天最佳新人】榜单，全部的排名请看 https://bbs.youkuaiyun.com/topics/615305877。

大家在看

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。