2.1 给出三个用于数据散布特征的常用统计度量,并讨论如何在大型数据库中有效地计算它们。
1.移动极差(Moving Range)
是指两个或多个连续样本值中最大值与最小值之差,这种差是按这样的方式计算的:每当得到一个额外的数据点时,就在样本中加上这个新的点,同时删除其中时间上“最老的”点,然后计算与这点有关的极差,因此每个极差的计算至少与前一个极差的计算公用一个点的值。一般来说,移动极差用于单值控制图,并且通常用两点(连续的点)来计算移动极差。
2.异众比率(Variation Ratio)
是指非众数值的次数之和在总次数中所占的比重。异众比率用于衡量一组以众数为分布中心的集中程度,即衡量众数达标一组数据一般水平的代表性。异众比率越小,说明数据的集中程度越高。
3.离散系数(Coefficient Variation)
是变异系数、极差、四分位差、平均差或标准差等变异指标与算术平均数的比率,以相对数的形式表示变异程度。将极差与算术平均数对比而得到极差系数,将平均差与算术平均数对比得到平均差系数。最常用的离散系数是用标准差来计算的,称为标准差系数,即:
V
σ
=
σ
x
ˉ
V_{σ}=\frac{σ}{\bar{x}}
Vσ=xˉσ。离散系数越大,说明数据的离散程度越大。
2.2 假设所分析的数据包括属性age,它在数据元组中的值(以递增序)为13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。
(a)该数据的均值是多少,中位数是什么
(b)该数据的众数是什么,讨论数据的模态
(c)该数据的中列数是多少
(d)粗略地找出该数据第一个四分位数(Q1)和第三个四分位数(Q3)
(e)给出该数据的五数概括
(f)绘制该数据的盒图
(g)分位数-分位数图与分位数图有何不同
(a)均值是29.96,中位数是25
(b)众数是25和35,数据的模态是双峰的。
(c)中列数是
70
+
13
2
=
41.5
\frac{70+13}{2}=41.5
270+13=41.5
(d)Q1是第二个20,Q3是第四个35
(f) 采用R语言绘制的盒图如下:
(g)分位数图横轴为f值,竖轴为属性值,用以观察单个变量的数据分布;分位数-分位数图,即q-q图,横轴和竖轴分别是对某个变量不同观测集的值,用以观察从一个分布到另一个分布数据是否有漂移。
2.3 设给定的数据集已经分组到区间,这些区间和对应频率如下所示:
age | frequency |
---|---|
1~5 | 200 |
6~15 | 450 |
16~20 | 300 |
21~50 | 1500 |
51~80 | 700 |
81~110 | 44 |
计算该数据的近似中位数。
中位数区间为21~50,则中位数区间下界为 L 1 = 21 , N = 3194 , ( Σ f r e q ) l = 950 , f r e q m e d i a n = 1500 , w i d t h = 30 L_{1}=21, N=3194, (\Sigma{freq})_{l}=950, freq_{median}=1500,width=30 L1=21,N=3194,(Σfreq)l=950,freqmedian=1500,width=30,根据插值计算方法,则有 m e d i a n = L 1 + ( N / 2 − ( Σ f r e q ) l f r e q m e d i a n ) w i d t h = 33.94 median=L_{1}+(\frac{N/2-(\Sigma{freq})_{l}}{freq_{median}})width=33.94 median=L1+(freqmedianN/2−(Σfreq)l)width=33.94。
2.4 假设医院对18个随机挑选的成年人检查年龄和身体肥胖,得到如下结果:
age | 23 | 23 | 27 | 27 | 39 | 41 | 47 | 49 | 50 |
---|---|---|---|---|---|---|---|---|---|
%fat | 9.5 | 26.5 | 7.8 | 17.8 | 31.4 | 25.9 | 27.4 | 27.2 | 31.2 |
age | 52 | 54 | 54 | 56 | 57 | 58 | 58 | 60 | 61 |
---|---|---|---|---|---|---|---|---|---|
%fat | 34.6 | 42.5 | 28.8 | 33.4 | 30.2 | 34.1 | 32.9 | 41.2 | 35.7 |
(a)计算age和%fat的均值、中位数和标准差
(b)绘制age和%fat的盒图
(c)绘制基于这两个变量的散点图和q-q图
(a)
a
v
g
(
a
g
e
)
≈
46.44
,
a
v
g
(
f
a
t
)
≈
28.78
avg(age)\approx46.44, avg(fat)\approx28.78
avg(age)≈46.44,avg(fat)≈28.78,
m
e
d
i
a
n
(
a
g
e
)
=
51
,
m
e
d
i
a
n
(
f
a
t
)
=
30.7
median(age)=51, median(fat)=30.7
median(age)=51,median(fat)=30.7,
σ
(
a
g
e
)
≈
13.22
,
σ
(
f
a
t
)
≈
9.25
\sigma(age)\approx13.22, \sigma(fat)\approx9.25
σ(age)≈13.22,σ(fat)≈9.25
(b)
(c)散点图
q-q图
2.5 简要概述如何计算被如下属性描述的对象的相异性:
(a)标称属性
(b)非对称的二元属性
(c)数值属性
(d)词频向量
(a)两个标称属性描述的对象
i
i
i和
j
j
j之间的相异性可以根据不匹配率来计算:
d
(
i
,
j
)
=
p
−
m
p
(1)
d(i,j)=\frac{p-m}{p} \tag{1}
d(i,j)=pp−m(1)其中,
m
m
m是匹配的数目(即
i
i
i和
j
j
j取值相同的属性数),而
p
p
p是刻画对象的属性总数。可以通过赋予
m
m
m较大的权重,或者赋给有较多状态的属性的匹配更大的权重来增加
m
m
m的影响。
(b)二元属性的相异性通过列联表进行计算,其中,非对称的二元属性相异性计算,需要忽略负匹配数,即
d
(
i
,
j
)
=
r
+
s
q
+
r
+
s
(2)
d(i,j)=\frac{r+s}{q+r+s} \tag{2}
d(i,j)=q+r+sr+s(2)式中的分母部分省略掉了负匹配数
t
t
t。
(c)数值属性的相异性采用对象之间的距离进行描述。包括欧几里得距离、曼哈顿距离和闵可夫斯基距离。其中欧几里得距离表示为:
d
(
i
,
j
)
=
(
x
i
1
−
x
j
1
)
2
+
(
x
i
2
−
x
j
2
)
2
+
⋯
+
(
x
i
p
−
x
j
p
)
2
(3)
d(i,j)=\sqrt{(x_{i1}-x_{j1})^2+(x_{i2}-x_{j2})^2+\cdots+(x_{ip}-x_{jp})^2} \tag{3}
d(i,j)=(xi1−xj1)2+(xi2−xj2)2+⋯+(xip−xjp)2(3)曼哈顿距离表示为:
d
(
i
,
j
)
=
∣
x
i
1
−
x
j
1
∣
+
∣
x
i
2
−
x
j
2
∣
+
⋯
+
∣
x
i
p
−
x
j
p
∣
(4)
d(i,j)=\lvert x_{i1}-x_{j1} \rvert+\lvert x_{i2}-x_{j2} \rvert+\cdots+\lvert x_{ip}-x_{jp} \rvert \tag{4}
d(i,j)=∣xi1−xj1∣+∣xi2−xj2∣+⋯+∣xip−xjp∣(4)闵可夫斯基距离,又称
L
p
L_{p}
Lp范数,
p
p
p即
h
h
h,表示为:
d
(
i
,
j
)
=
∣
x
i
1
−
x
j
1
∣
h
+
∣
x
i
2
−
x
j
2
∣
h
+
⋯
+
∣
x
i
p
−
x
j
p
∣
h
h
(5)
d(i,j)=\sqrt[h]{\lvert x_{i1}-x_{j1} \rvert^h+\lvert x_{i2}-x_{j2} \rvert^h+\cdots+\lvert x_{ip}-x_{jp} \rvert^h} \tag{5}
d(i,j)=h∣xi1−xj1∣h+∣xi2−xj2∣h+⋯+∣xip−xjp∣h(5)当
h
→
∞
h\rightarrow \infty
h→∞时,闵可夫斯基距离推广为上确界距离,又称
L
m
a
x
,
L
∞
L_{max},L_\infty
Lmax,L∞范数或切比雪夫距离或一致范数,表示为:
d
(
i
,
j
)
=
lim
h
→
∞
(
∑
f
=
1
p
∣
x
i
f
−
x
j
f
∣
h
)
1
h
=
max
f
p
∣
x
i
f
−
x
j
f
∣
(6)
d(i,j)=\lim\limits_{h\rightarrow\infty}\Big(\sum\limits_{f=1}^p\lvert x_{if}-x_{jf}\rvert^h\Big)^{\frac{1}{h}}=\max\limits_f^p\lvert x_{if}-x_{jf}\rvert \tag{6}
d(i,j)=h→∞lim(f=1∑p∣xif−xjf∣h)h1=fmaxp∣xif−xjf∣(6)如果对每个变量根据其重要性赋予一个权重,则加权的欧几里得距离表示为:
d
(
i
,
j
)
=
ω
1
∣
x
i
1
−
x
j
1
∣
2
+
ω
2
∣
x
i
2
−
x
j
2
∣
2
+
⋯
+
ω
p
∣
x
i
p
−
x
j
p
∣
2
(7)
d(i,j)=\sqrt{\omega_1\lvert x_{i1}-x_{j1} \rvert^2+\omega_2\lvert x_{i2}-x_{j2} \rvert^2+\cdots+\omega_p\lvert x_{ip}-x_{jp} \rvert^2} \tag{7}
d(i,j)=ω1∣xi1−xj1∣2+ω2∣xi2−xj2∣2+⋯+ωp∣xip−xjp∣2(7)
(d)计算词频向量的相似性,需要忽略0匹配的数值。可以采用余弦相似性度量,表示为:
s
i
m
(
x
,
y
)
=
x
⋅
y
∣
∣
x
∣
∣
∣
∣
y
∣
∣
(8)
sim(x,y)=\frac{x\cdot y}{\lvert\lvert x\rvert\rvert\ \lvert\lvert y\rvert\rvert} \tag{8}
sim(x,y)=∣∣x∣∣ ∣∣y∣∣x⋅y(8)其中,
x
x
x和
y
y
y分别是各向量的欧几里得范数,即向量的长度。
2.6 给定两个被元组(22,1,42,10)和(20,0,36,8)表示的对象。
(a)计算这两个对象之间的欧几里得距离
(b)计算这两个对象之间的曼哈顿距离
(c)使用p=3,计算这两个对象之间的闵可夫斯基距离
(d)计算这两个对象之间的上确界距离
(a)根据公式(3)可得欧几里得距离约为
6.708204
6.708204
6.708204
(b)根据公式(4)可得曼哈顿距离为11
(c)根据公式(5)可得闵可夫斯基距离约为6.153449
(d)根据公式(6)可得上确界距离为6
2.7 中位数是数据分析中最重要的整体度量之一。提出几种中位数近似计算方法。在不同的参数设置下,分析它们各自的复杂度,并确定它们的实际近似程度。此外,提出一种启发式策略,平衡准确性与复杂性,然后把它用于你给出的所有方法。
插值法
2.8 在数据分析中,重要的是选择相似性度量。然而,不存在广泛接受的主观相似性度量,结果可能因所用的相似性度量而异。虽然如此,在进行某种变换后,看来似乎不同的相似性度量可能等价。假设我们有如下二维数据集:
A1 | A2 | |
---|---|---|
x1 | 1.5 | 1.7 |
x2 | 2 | 1.9 |
x3 | 1.6 | 1.8 |
x4 | 1.2 | 1.5 |
x5 | 1.5 | 1.0 |
(a)把该数据看做二维数据点。给定一个新数据点x=(1.4,1.6)作为查询点,使用欧几里得距离、曼哈顿距离、上确界距离和余弦相似性,基于与查询点的相似性对数据库的点排位。
(b)规格化该数据集,使得每个数据点的范数等于1。在变换后的数据上使用欧几里得距离对诸数据点排位。
(a)欧几里得距离排序:
x | |
---|---|
x1 | 0.1414214 |
x4 | 0.2236068 |
x3 | 0.2828427 |
x5 | 0.6082763 |
x2 | 0.6708204 |
曼哈顿距离排序:
x | |
---|---|
x1 | 0.2 |
x4 | 0.3 |
x3 | 0.4 |
x5 | 0.7 |
x2 | 0.9 |
上确界距离排序:
x | |
---|---|
x1 | 0.1 |
x4 | 0.2 |
x3 | 0.2 |
x5 | 0.6 |
x2 | 0.6 |
余弦相似性排序:
x | |
---|---|
x1 | 0.0293405394190871 |
x4 | 0.0548055882352941 |
x3 | 0.05524271484375 |
x2 | 0.114866506849315 |
x5 | 0.164399 |
(b)规格化的数据表
A1 | A2 | |
---|---|---|
x1 | 0.6616216 | 0.7498379 |
x2 | 0.7249994 | 0.6887495 |
x3 | 0.6643638 | 0.7474093 |
x4 | 0.6246950 | 0.7808688 |
x5 | 0.8320503 | 0.5547002 |
欧几里得距离排序
x | |
---|---|
x1 | 1.126045416 |
x3 | 1.126086778 |
x4 | 1.127862437 |
x2 | 1.134020859 |
x5 | 1.189629584 |
致谢
感谢广大网友!
主要参考内容:
[1]https://blog.youkuaiyun.com/pipisorry/article/details/72820982
[2]https://blog.youkuaiyun.com/fjssharpsword/article/details/74911180
[3]https://blog.youkuaiyun.com/qq_24336773/article/details/80676059
[4]https://blog.youkuaiyun.com/xxzhangx/article/details/53153821