刚刚考完啦,一共七道大题
---
1、航空公司,跟踪不同航线上旅客的季节变化情况和增长,并跟踪在不同航班上所消费的食品和饮料情况。
1)面向这次任务,设计数据仓库模型
2)统计北美航线的年度水果饮料的销量,OLAP操作
2、处理数据 100 400 500 1000 1100 2000
1)Max-min 标准化,new_max=1,new_min=0,处理全部数据
2)z-score标准化100(均值=850 标准差为667)
3)边缘平滑,深度为3
3、1) 计算信息增益,root level划分属性?
2)Z:short red blue,朴素贝叶斯分类
id | heigh | hair | eye | Class |
1 | High | A | Blond | C1 |
2 | High | A | Blond | C1 |
3 | High | A | Blue | C1 |
4 | short | B | Blond | C1 |
5 | High | B | Blond | C1 |
6 | High | Red | Blue | C2 |
7 | short | B | Blue | C2 |
8 | short | B | Blue | C2 |
4、min_sup=60%,FP树,条件FP树,写出所有的频繁项集
id | item |
1 | X,V,Y |
2 | X,V,Y,W,Z |
3 | W,Z,X |
4 | V,X,Y |
5、Single Link聚类,写清层次
ID | 属性1 | 属性2 |
1 | 1 | 1 |
2 | 1 | 2 |
3 | 2 | 1 |
4 | 2 | 2 |
5 | 3 | 4 |
6 | 3 | 5 |
7 | 4 | 4 |
8 | 4 | 5 |
6、1)求与student1最相似的TOP 2学生,用cos sim
2)预测student1,item2的值,利用top 2学生数据
student | item1 | item2 | item3 | item4 |
1 | 3 | ? | 1 | 2 |
2 | 3 | 2 | 1 | 4 |
3 | 3 | 3 | 1 | 5 |
4 | 2 | 1 | 3 | 4 |
7、某公司数据库里有一堆数据,作者、论文、出版社、论文标题、出版数量(假设无引用信息)等信息形成 heterogous information network,求预测topics(一系列)that an author work in the coming future?