
CDA数据分析
skyHdd
deep work,simple life
展开
-
CDA level 2 案例1实现
案例相关代码:常用库导入# 导入相关库import numpy as npimport pandas as pdimport seaborn as snssns.set_style("whitegrid") import matplotlib.pyplot as plt%matplotlib inlinefrom matplotlib.pylab import rcParamsrcParams['figure.figsize'] = 12, 4import xgboost as原创 2020-08-11 00:29:22 · 823 阅读 · 0 评论 -
数值数据分析流
数值数据分析流引入框架数据分析流框架理解1、需求2、y量化3、x选择4、描述4.1图形4.2统计量5、预分析(特征工程,流程化和模块化)5.1、异常值单变量异常值多变量异常值5.2、缺失值单变量缺失值多变量缺失值5.3、特征筛选单变量特征筛选多变量特征筛选5.4、共线性 scipy.optional单变量多变量5.5、变换单变量多变量5.6、编码单变量编码多变量编码6、建模(大模型:机器学习)小数据算法:8 statsmodel 小数据大数据算法:20 sklearn 大数据7、修正7.1、残差7.原创 2020-05-26 23:09:08 · 515 阅读 · 0 评论 -
CDA Level 2: Part 3.3 决策树(分类树、回归树)
原创 2020-04-27 19:54:31 · 369 阅读 · 0 评论 -
CDA Level 1: Part 1.3 推断性系统学习
推断性系统学习正态分布:三大分布卡方分布:特点:用途:1、单样本方差检验2、离散变量独立性检验 (列联表)3、拟合优度检验(列联表)t分布:特点:用途:1、单样本均值检验(小样本n<30,总体正态,方差未知,估计总体均值)2、F分布:特点:用途:1、双样本方差检验2、离差均方和检验中心极限定理切比雪夫不等式...原创 2020-01-02 21:52:06 · 629 阅读 · 2 评论 -
CDA Level1 考试心得
2019-12-28 CDA Level 1考试总结考试题型单选题(50’=50*1’)多选题情景题(4*(单选+多选))考试内容单选题:涉及内容为cda考纲中知识点,分布较为均匀多选题:涉及内容为cda考纲中知识点,分布较为均匀情景题:SPSS中结果分析、SQL语句、多元回归理解(线性系数、回归系数检验)、逻辑回归考试体会题目不难,题目数量固定,时间足够答题,涉及的...原创 2019-12-30 17:05:48 · 10675 阅读 · 4 评论 -
CDA Level 1 PART1:数据分析概述 描述性统计分析
数据分析概述 描述性统计分析CRISP-DM方法论 SEMMA方法集中趋势与离散趋势指标原创 2019-12-30 16:47:50 · 1283 阅读 · 2 评论 -
CDA Level1 PART4:时间序列
时间序列从历史的数据中找到必然性从而得到未来的确定性的部分。时间分解(加法、乘法、混合模型)ARIMA(n,m)ARMA(p,q) p步偏相关系数截尾,q步自相关系数截尾ARIMA(n,m)非平稳选用差分方法...原创 2019-12-22 20:01:51 · 640 阅读 · 1 评论 -
CDA Level1 PART4.4:分类分析(逻辑回归)
分类分析(逻辑回归)**逻辑回归是用线性方式表示ln(ods)自变量和应变量都可以是分类变量,两个分类变量之间的检验可以选择卡方检验,卡方值是预测值和期望值之间的相对距离,卡方值越小越好筛选自变量:似然比检验模型输出是一个概率值(相对值,没有实际含义,单可以进行排序),人为选择概率阈值进行分类**...原创 2019-12-22 19:40:24 · 523 阅读 · 1 评论 -
CDA Level1 PART4.3:回归分析
回归分析使用于截面数据(不含时间序列)。修正R^2,在分母上增加惩罚项k(自变量个数)原创 2019-12-22 17:33:02 · 424 阅读 · 0 评论 -
CDA Level 1 PART4.5 聚类分析
聚类分析聚类分析的本质是无监督分类,将相似度较高的作为一类相似度一般选择距离进行度量层次聚类,无论是从n类聚成1类,还是从1类聚成n类,最终形成一个分类树,在分类树的基础上决定分成多少类(起始无需确定分成多少类)K-means聚类(快速聚类)首先确定分成多少类(类的数量开始必须给出)...原创 2019-12-22 16:39:33 · 423 阅读 · 0 评论 -
CDA Level1 PART4.2:因子分析
因子分析因子分析本质是将原始变量抽象成公共因子+随机因子(特殊因子),目标是找到公共因子,特殊因子不需要寻找因子分析从原始变量中提取出公共因子,需要计算其系数:因子载荷矩阵,可以采用主成分的方法计算。计算用字载荷矩阵出现0.5这样的数值,不便于解释公共因子的含义,需要进一步进行因子旋转,使得系数两级分化,表示变量突出,便于解释各个因子的业务含义。...原创 2019-12-22 16:18:02 · 872 阅读 · 0 评论 -
CDA Level1 PART4.1:主成分分析
CDA Level1 PART4.1:主成分分析本质降维主成分分析:用原始变量构造主成分,第一个主成分的方差最大,代表的信息越多。特征向量的方向表示了拉伸的方向。因子分析:用原始变量中找出(抽象出)隐性的公共因子,选择比较重要的公共因子表示变量,实现降维。...原创 2019-12-22 15:58:37 · 795 阅读 · 0 评论 -
CDA Level1:PART3:数据采集及预处理
数据采集及预处理原创 2019-12-22 15:34:53 · 701 阅读 · 2 评论 -
CDA Level 1 PART2:SQL数据库基础
SQL数据库基础原创 2019-12-22 15:03:16 · 847 阅读 · 0 评论 -
CDA_Level1_思维导图
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...原创 2019-12-22 11:06:00 · 1878 阅读 · 10 评论