学习笔记(二)数据挖掘概念与技术

本文深入探讨了数据挖掘的概念和技术,包括中心趋势度量如均值、中位数和众数,数据散布的度量如极差和四分位数,以及方差和标准差。此外,介绍了数据统计描述的图形显示如分位数图和散点图,数据可视化的各种方法,以及度量数据相似性和相异性的不同方法,如欧几里得距离和余弦相似性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1中心趋势度量:均值(mean)、中位数、众数

截尾均值:丢掉高低极端值后的均值

加权算术均值(加权平均):\bar{x}=\sum_{i=1}^{N}w_{i}x_{i}/\sum_{i=1}^{N}w_{i}=w_1{}x_1{}+w_2{}x_2{}+...+w_{N}x_{N}/w_1{}+w_2{}+...+w_N{}

中位数(median)是有序数据的中间值,对于非对称数据是数据中心更好的度量。

用插值法计算中位数的近似值:median=L_{1}+(N/2-(\sum freq )_{l}/freq_{median})width其中L_{1}是中位数区间的下界,N是整个数据集中值的个数,(\sum freq )_{l}是低于中位数区间的所有区间的频率和,freq_{median}是中位数区间的频率,而width是中位数区间的宽度。

众数(mode):集合中出现最频繁的值,可以对定性和定量属性确定众数。(可能出现多个众数)

对于适度倾斜(非对称)的单峰数值数据,有经验关系:mean-mode\approx 3\times (mean-median),就是说如果均值和中位数已知,则适度倾斜的单峰频率曲线的众数容易近似计算。

中列数(midrange):是数据集的最大和最小值的平均值(max+min)/2。具有完全对称的数据分布的单峰频率曲线中,均值、中位数、众数相同

2度量数据散布:极差、四分位数、方差、标准差和四分位数极差

(1)极差:最大值与最小值之差。分位数:取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。2-分位数对应于中位数,4-分位数是3个数据点,把数据划分成4个相等的部分。第1和3个四分位数之间的距离是散布的一种简单度量,给出数据中间一半所覆盖的范围称为四分位数极差(IQR)=Q3-Q1

(2)五数概括、盒图与离群点

识别可疑离群点的通常规则是,挑选落在第三个四分位数之上或者Q1之下至少1.5*IQR处的值。

五数概括:minimum,Q1,Median.Q3,maximum

boxplot(盒图):端点一般在四分位数上,使得盒的长度是四分位数极差IQR,中位数用盒内线做标记,胡须延伸到min和max的观测值。

方差和标准差:指出数据的散布(离散)程度,越小说明数据观测趋于均值,越大离散程度越大。\delta^{^{2}}=(1/N)\sum_{i=1}^{N}(x_{i}-\tilde{x})^2=(1/N*\sum_{i=1}^{n}x_{i}^{2})^2-\bar{x}^2注意:一个观测一般不会远离均值超过标准差的数倍,精准的说,最少

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值