填空、简答3-5、计算2、应用1
聚类、离群点、数据归约、属性的类型、数据仓库的特征、数据仓库模型、度量值的类型、频繁模式、关联规则、SVM算法、DBSCAN算法的相关概念。
简答:
数据仓库和操作数据库的区别
大题:
盒图的绘制
数据仓库建模
相关性分析的方法
使用Apriory和Fp算法挖掘频繁项集
使用朴素贝叶斯方法和神经网络算法进行分类预测
U1
1.2概念
数据挖掘是从大量数据中挖掘有趣模式和知识的过程。
是知识发现(最重要)的一个步骤
知识发现的步骤
数据清理-数据集成-数据选择-数据变换-数据挖掘-模式评估-知识表示
U2
中心趋势度量:均值、中位数、众数
近似中位数计算
中列数:max和min的均值
四分位数极差IQR=Q3-Q1
可疑的离群点:落在Q3之上或Q1之下1.5倍IQR以外的值
五数概括:按次序:Min,Q1,Median,Q3,Max
数据集由数据对象组成。数据对象代表实体。
数据对象用属性描述。属性表示数据对象的一个特征。
数据是( 数据对象及其属性的集合),属性分为(标称、序数、数值属性 )。
属性的类型由该属性可能具有的值的集合决定。属性可以是标称的、二元的、序数
的或数值的。
标称属性:标称代表“与名称相关”,其值是一些符号或事物的名称。
二元属性:一种标称属性,只有两个状态:0或1。
序数属性:其值之间具有有意义的序或者秩评定,相继值之间的差是未知的。
数值属性:可测量的量,用整数或实数的值表示。数值属性可以是区间标度的或比率标度的。