祝大家考试顺利~
一,题型和分值
二,知识点整理
1,数据挖掘
①数据挖掘概念:从大量数据中通过算法搜索隐藏其中的有效信息的过程
②算法分类:
关联分析:Apriori算法
时间序列分析:简单移动分析,复杂差分移 动分析,自回归
数据分类:决策树,贝叶斯,向量机,神经网络
数据聚类:K均值聚类,神经网络聚类
2,文本挖掘
①基本概念:在大量文本的集合C中发现隐含的模式P
②TF-IDF
基本思想
计算:TF(词频)×IDF(逆文档频率)
TF:
IDF:
3,支持度和置信度
①支持度:项目X和项目Y同时同时出现的概率
最小支持度:项目集在统计意义上的最低重要性
②置信度:包含在项目X的事务中也同时包含项目Y,反映项目X出现条件下项目Y出现的可能性
最小置信度:关联规则的最低可靠性
③项目集格空间理论
定理1:频繁项目集的所有子集仍是频繁项目集
定理2:非频繁项目集的所有超集仍是非频繁项目集
4,决策树
①信息熵
②条件熵
③信息增益
④信息增益率
⑤ID3和C4.5:
利用信息增益进行计算和决策的就是ID3,利用信息增益率进行计算和决策的就是C4.5
5,朴素贝叶斯
①条件概率
在B前提下发生A事件的可能性,记作P(A|B)=P(AB)/P(B)
②先验后验概率
先验:根据以往数据统计或者分析得到的概率
后验:得到结果信息后重新修正的概率
6,K近邻分类与K均值聚类
①K近邻分类:待分类的这个数据点归属到哪一类,由它的K个近邻样本点的分类情况决定
流程:
②K均值聚类:将样本点归属到距离它最近的那个聚类中心
流程:
③dbscan
7,sklearn
①功能
分类:识别给定对象的所属类别;
回归:预测雨给定对象的相关联的连续值属性;
聚类:自动识别具有相似属性的给定对象,并将这些对象根据属性的相似程度分组为多个集合;
数据降维:将高维特征空间里的点向一个低维空间投影;
模型选择:对于给定参数和模型进行比较,验证和选择;
数据预处理:对数据进行特征提取和归一化处理
②模块
预处理器
转换器
估计器
模型评估,交叉验证
③knn算法思路
调用knn.fit()训练模型,训练完成后调用knn.predict()对测试集中的数据分类预测
8,神经网络
①模型
神经元模型
多层人工神经网络模型
②梯度下降:找到给定点的梯度,然后朝着梯度相反的方向,就能让函数值下降的最快
③后向传播:通过比较输出结果和真实标签,计算损失函数对每个权重和偏置的偏导数,并将其传递回网络中的每一层,从而更新权重和偏置的过程
9,相关和回归
①协方差
常用计算公式:
②相关系数
10,混淆矩阵
①结构
②概念
三,计算分析题模块
1,基础知识
①欧几里德距离(欧式距离)
,