Python金融数据挖掘期末复习

祝大家考试顺利~

一,题型和分值

二,知识点整理


1,数据挖掘

①数据挖掘概念:从大量数据中通过算法搜索隐藏其中的有效信息的过程
②算法分类:
关联分析:Apriori算法
时间序列分析:简单移动分析,复杂差分移 动分析,自回归
数据分类:决策树,贝叶斯,向量机,神经网络
数据聚类:K均值聚类,神经网络聚类

2,文本挖掘

①基本概念:在大量文本的集合C中发现隐含的模式P

②TF-IDF


基本思想


计算:TF(词频)×IDF(逆文档频率)

TF:

IDF:

 

3,支持度和置信度
①支持度:项目X和项目Y同时同时出现的概率

最小支持度:项目集在统计意义上的最低重要性


②置信度:包含在项目X的事务中也同时包含项目Y,反映项目X出现条件下项目Y出现的可能性

最小置信度:关联规则的最低可靠性


③项目集格空间理论


定理1:频繁项目集的所有子集仍是频繁项目集
定理2:非频繁项目集的所有超集仍是非频繁项目集


4,决策树

①信息熵

②条件熵

③信息增益

④信息增益率

⑤ID3和C4.5:

 利用信息增益进行计算和决策的就是ID3,利用信息增益率进行计算和决策的就是C4.5

5,朴素贝叶斯

①条件概率


在B前提下发生A事件的可能性,记作P(A|B)=P(AB)/P(B)


②先验后验概率


先验:根据以往数据统计或者分析得到的概率
后验:得到结果信息后重新修正的概率

6,K近邻分类与K均值聚类

①K近邻分类:待分类的这个数据点归属到哪一类,由它的K个近邻样本点的分类情况决定

流程:


②K均值聚类:将样本点归属到距离它最近的那个聚类中心

流程:


③dbscan


MinPot:最小域值
EPS:半径
算法过程(一看就会):基于密度的聚类算法dbscan算法_哔哩哔哩_bilibili-, 视频播放量 2764、弹幕量 5、点赞数 53、投硬币枚数 23、收藏人数 72、转发人数 23, 视频作者 彦lin霖霖霖霖霖, 作者简介 承蒙厚爱,相关视频:基于密度的聚类 DBSCAN 解释与实例计算,DBSCAN聚类的python实现( iris数据集)不同聚类算法实验对比(moons,blobs,circle数据集),关联规则apriori算法,期末数据挖掘K-means算法 计算大题(自用版),快速学会聚类算法系列之DBSCAN(附matlab代码),数据仓库 数据挖掘 关联规则挖掘 - Apriori 算法,期末数据挖掘层次聚类算法 (自学版),这也太全了!回归算法、聚类算法、决策树、随机森林、神经网络、贝叶斯算法、支持向量机等十大机器学习算法一口气学完!,【10分钟算法】K均值聚类算法-带例子/K-Means Clustering Algorithm,聚类问题:DBSCAN算法详解+考试例题讲解icon-default.png?t=N7T8https://www.bilibili.com/video/BV1RZ421x7o4/?buvid=XY32FAF37FF42B4522C1E22B3DBF9C4F92D33&from_spmid=search.search-result.0.0&is_story_h5=false&mid=pb%2FpgvmjcWm7Z%2BsB9Jhh0g%3D%3D&p=1&plat_id=114&share_from=ugc&share_medium=android&share_plat=android&share_session_id=a02b37f4-7077-437a-9999-98492350f6c1&share_source=COPY&share_tag=s_i&spmid=united.player-video-detail.0.0×tamp=1719737713&unique_k=ZdLX6bV&up_id=414933910&vd_source=ead38ae844bc3dfa35e9aafb11189900

7,sklearn

①功能


分类:识别给定对象的所属类别;


回归:预测雨给定对象的相关联的连续值属性;
聚类:自动识别具有相似属性的给定对象,并将这些对象根据属性的相似程度分组为多个集合;
数据降维:将高维特征空间里的点向一个低维空间投影;
模型选择:对于给定参数和模型进行比较,验证和选择;
数据预处理:对数据进行特征提取和归一化处理


②模块


预处理器
转换器
估计器
模型评估,交叉验证


③knn算法思路


调用knn.fit()训练模型,训练完成后调用knn.predict()对测试集中的数据分类预测

8,神经网络


①模型
神经元模型
多层人工神经网络模型


②梯度下降:找到给定点的梯度,然后朝着梯度相反的方向,就能让函数值下降的最快


③后向传播:通过比较输出结果和真实标签,计算损失函数对每个权重和偏置的偏导数,并将其传递回网络中的每一层,从而更新权重和偏置的过程

9,相关和回归
①协方差

常用计算公式:

②相关系数

10,混淆矩阵
 ①结构

②概念

三,计算分析题模块

1,基础知识
①欧几里德距离(欧式距离)

,

②曼哈顿距离

③余弦相识度

2,朴素贝叶斯计算

期末数据挖掘朴素贝叶斯算法 计算大题(自用版)_哔哩哔哩_bilibili-, 视频播放量 14933、弹幕量 12、点赞数 511、投硬币枚数 107、收藏人数 315、转发人数 115, 视频作者 超人的sister, 作者简介 ,相关视频:机器学习期末考试速成(大题)-02朴素贝叶斯,[5分钟学算法] #02 朴素贝叶斯 写作业还得看小明,快速理解朴素贝叶斯法(2),期末数据挖掘KNN算法 计算大题(自用版),【决策树算法4】朴素贝叶斯算法 数据挖掘 期末考试 计算题 详细步骤讲解,【决策树算法1】ID3算法 数据挖掘 期末考试 计算题 详细步骤讲解,【python数据分析技巧】[贝叶斯算法]垃圾邮件过滤实例教程来啦,大家一起来学习吧!!!,期末数据挖掘关联规则的apriori 算法计算大题,数据仓库 数据挖掘 - 决策树分类 朴素贝叶斯分类算法,数据挖掘简答题知识点icon-default.png?t=N7T8https://www.bilibili.com/video/BV1HQ4y1E7HD/?spm_id_from=333.999.0.0&vd_source=ead38ae844bc3dfa35e9aafb11189900

3,ID3算法

期末数据挖掘ID3算法 计算大题(自学版)_哔哩哔哩_bilibili-, 视频播放量 7824、弹幕量 14、点赞数 150、投硬币枚数 44、收藏人数 162、转发人数 60, 视频作者 超人的sister, 作者简介 ,相关视频:【决策树算法1】ID3算法 数据挖掘 期末考试 计算题 详细步骤讲解,数据挖掘十大算法期末复习,机器学习期末考试速成(大题)-02朴素贝叶斯,期末数据挖掘KNN算法 计算大题(自用版),期末数据挖掘层次聚类算法 (自学版),【决策树算法4】朴素贝叶斯算法 数据挖掘 期末考试 计算题 详细步骤讲解,数据挖掘期末速成,损失函数,关联规则apriori算法,期末数据挖掘K-means算法 计算大题(自用版),ID3算法举例讲解icon-default.png?t=N7T8https://www.bilibili.com/video/BV11t4y1d7dX/?spm_id_from=333.999.0.0&vd_source=ead38ae844bc3dfa35e9aafb11189900

4,KNN算法

期末数据挖掘KNN算法 计算大题(自用版)_哔哩哔哩_bilibili-, 视频播放量 17287、弹幕量 17、点赞数 506、投硬币枚数 91、收藏人数 372、转发人数 154, 视频作者 超人的sister, 作者简介 ,相关视频:期末数据挖掘K-means算法 计算大题(自用版),[5分钟学算法] #01 k近邻法,数据挖掘十大算法期末复习,机器学习期末考试速成(大题)-02朴素贝叶斯,数据挖掘十大算法之四——KNN算法,情感分类 | KNN算法 | 原理简介+代码讲解 | 文本分析【python-sklearn】,数据挖掘,数据分析,数据可视化大作业有救啦,哈哈哈哈哈哈哈哈,期末数据挖掘关联规则的apriori算法 计算大题(自用版),快速学会K近邻(KNN)算法(附MATLAB代码),数据挖掘简答题知识点icon-default.png?t=N7T8https://www.bilibili.com/video/BV1fT4y1W7Xa/?spm_id_from=333.999.0.0&vd_source=ead38ae844bc3dfa35e9aafb11189900

5,关联规则的apriori算法

期末数据挖掘关联规则的apriori算法 计算大题(自用版)_哔哩哔哩_bilibili-, 视频播放量 19504、弹幕量 26、点赞数 530、投硬币枚数 124、收藏人数 369、转发人数 114, 视频作者 超人的sister, 作者简介 ,相关视频:期末数据挖掘关联规则的apriori 算法计算大题,数据仓库 数据挖掘 关联规则挖掘 - Apriori 算法,关联规则apriori算法,数据挖掘十大算法期末复习,期末数据挖掘KNN算法 计算大题(自用版),数据挖掘简答题知识点,【自用】数据挖掘期末复习,关联规则在中医药数据挖掘中的应用(基于Apriori算法,SPSS Modeler,R ,python分别进行数据分析和可视化),【关联规则Apriori算法】关联规则的置信度支持度和提升度怎么算?计算机博士带你吃透数据挖掘关联规则代码实现!机器学习算法,期末数据挖掘PF树算法 计算大题 (自学版)icon-default.png?t=N7T8https://www.bilibili.com/video/BV1B64y1H7Uc/?spm_id_from=333.999.0.0&vd_source=ead38ae844bc3dfa35e9aafb11189900

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值