数据挖掘作业
1.使用如下方法规范化如下数据组:
200,300,400,600,1000
- 令min=0,max=1,最小、最大规范化。
2.z分数规范化.
3.小数定标规范化。
2.假设12个销售价格记录已经排序,如下所示:
5,10,11,13,15,35,50,55,72,92,204,215
使用如下各方法将它们划分成三个箱。
- 等频(等深)划分。(个数相同)--用平均值光滑数据。
2.等宽划分。(区间长度相同,如:80) --用边界值光滑数据。
3.已知事件X 属于不同分类的概率分布:
计算三种情况下的X的熵。并讨论熵值与不确定性的关系。(对数的底数取值:
4.有两个向量x和y:
x=(1,1,1,1)
y=(2,2,2,2),
分别计算两向量的欧几里德距离和余弦相关性。
5.有两个向量x和y:
x=(0,1,0,1)
y=(1,0,1,0),
分别计算两向量的Jaccard(杰卡德)系数和Pearson's correlation(皮尔森)相关系数。