
Data Analysis
文章平均质量分 53
木叶生_白菜叶子
这个作者很懒,什么都没留下…
展开
-
数据挖掘:特征工程
文章内容以图片的形式呈现文章目录文章内容以图片的形式呈现一、特征工程-主篇二、描述性统计三、探索性分析四、异常值处理五、缺失值处理六、特征编码七、Baseline模型确定八、特征创造九、标准化十、特征筛选十一、样本标签不均衡处理十二、特征学习十三、模型调参一、特征工程-主篇注:缺失值处理应在特征编码之前,因为部分编码方法无法处理缺失值。二、描述性统计三、探索性分析四、异常值处理五、缺失值处理六、特征编码七、Baseline模型确定八、特征创造九、标准化十、特征筛选原创 2021-01-25 15:57:25 · 534 阅读 · 0 评论 -
整理总结:统计学习方法
参考资料:李航的《统计学习方法》第二版文章内容以图片的形式呈现文章目录参考资料:李航的《统计学习方法》第二版文章内容以图片的形式呈现第一章 统计学习及监督学习概论第二章 感知器第三章 K近邻第四章 朴素贝叶斯第五章 决策树第六章 逻辑斯蒂回归与最大熵模型第七章 支持向量机第八章 提升算法第九章 EM算法及其推广第十章 隐马尔可夫模型第十一章 条件随机场第十二章 监督学习方法总结第十三章 无监督学习概论第十四章 聚类方法第十五章 奇异值分解第十六章 主成分分析第十七章 潜在语义分析第十八章 概率潜在语义分原创 2020-11-20 15:18:23 · 596 阅读 · 0 评论 -
整理总结:基于Python的数据分析之用户分类案例及基本流程
文章内容以图片的形式展示原创 2020-11-19 15:46:46 · 406 阅读 · 0 评论 -
整理总结:基于Python的数据分析思路概述
文章内容以图片的形式展示原创 2020-10-20 18:54:02 · 246 阅读 · 0 评论 -
整理总结:Python清洗代码 —— Numpy、Pandas、Matplolib、Pyecharts和招聘信息分析案例
注:文章内容以图片的形式展示原创 2020-10-20 18:05:19 · 215 阅读 · 0 评论 -
整理总结:Python代码基础 —— 基本类型、类定义、异常处理、文件读写和数据库操作
注:文章内容以图片的形式展示原创 2020-10-20 18:04:15 · 142 阅读 · 0 评论 -
整理总结:关于XGBoost模型组成的简单探究
注:文章内容以图片的形式展示原创 2020-10-20 17:59:20 · 239 阅读 · 0 评论 -
整理总结:区间估计与假设检验的原理及其共同点
文章内容以图片的形式展示原创 2020-10-20 17:54:51 · 734 阅读 · 0 评论 -
整理总结:线性回归的损失函数和梯度下降之间的概述
文章内容以图片的形式展示原创 2020-10-20 17:53:10 · 238 阅读 · 0 评论 -
整理总结:关于特征筛选中F分布和卡方分布的运用
文章内容以图片的形式展示原创 2020-10-20 17:52:05 · 290 阅读 · 0 评论 -
整理总结:SVM基本数学模型求解过程 —— 线性、非线性和核函数
文章内容以图片的形式展示原创 2020-10-20 17:45:36 · 490 阅读 · 0 评论 -
整理总结:基于PCA降维的特征值分解与奇异值分解的比较
文章内容以图片的形式展示原创 2020-10-20 17:36:23 · 269 阅读 · 0 评论 -
数据分析:Python数据清洗(六)
原创 2020-08-16 19:03:28 · 194 阅读 · 0 评论 -
数据分析:Python基础(五)
内容仅为课件目录原创 2020-08-08 21:50:27 · 197 阅读 · 0 评论 -
数据分析:数理统计基础(四)
本篇目录一、基本符号表二、数据的分类三、统计方法之 描述性分析方法四、统计方法之 推断性分析方法I、各类分布II、估计III、假设检验IV. 列联分析V. 方差分析VI. 相关分析VII. 回归分析统计学是一门收集、处理、分析、解释数据并从中得出结论的科学。一、基本符号表符号含义XXX总体(随机变量,可带分布)XiX_iXi样本(随机变量,可带分布,可组成统计量)xix_ixi样本实际观测值(实数)μ\muμ总体均值π\piπ总体比例σ\原创 2020-07-31 20:05:28 · 1470 阅读 · 0 评论 -
整理总结:机器学习实战中的一些窍门
本篇目录一、如何找到最优模型和对应参数I、探求一个模型的最佳参数II、探求项目中的最佳模型及其最优参数二、如何正确评估模型性能一、如何找到最优模型和对应参数I、探求一个模型的最佳参数在搭建随机森林模型前,利用GridSearchCV方法寻求该模型的最优参数,这里我们只探究——在当前数据集中,随机森林分类的个数在1~11范围内应该是哪个最好。# -*- coding: utf-8 -*-# 使用RandomForest对IRIS数据集进行分类# 利用GridSearchCV寻找最优参数,使用Pip原创 2020-07-26 17:46:03 · 339 阅读 · 0 评论 -
整理总结:Python爬虫的基本使用
参考资料:极客时间的《数据分析实战45讲》本篇目录参考资料:极客时间的《数据分析实战45讲》一、利用爬虫采集数据(Json和Xpath两种方式)二、利用爬虫模拟浏览器(登录、关注、评论)I、模拟微博的自动登录II、模拟微博加关注III、模拟微博写评论和发微博一、利用爬虫采集数据(Json和Xpath两种方式)# -*- coding:utf-8 -*-# 网易云音乐 通过歌手ID,生成该歌手的词云import requestsimport sysimport reimport osfrom原创 2020-07-25 21:25:55 · 388 阅读 · 0 评论 -
数据分析:商业智能分析(三)
本篇目录一、Power Bi 使用方法论I、业务理解:掌握指标池II、数据理解:数据类型的检查、确定维度、指标及其表达形式III、数据处理:合并查询、自定义列、新建表IV、数据建模:确定模型关系、筛选方向V、数据汇总分析:创建指标度量值VI、数据展现:拖拉组件、选取合适的维度与度量值二、Power Bi 的一些使用注意事项I、Average函数求的是主键的平均值II、在DAX表达式中不允许直接函数嵌套III、环比增长率指标的制作IV、DAX汇总表达式的结果对比三、Power Bi 各行业案例 - 实现草图原创 2020-07-25 11:18:22 · 749 阅读 · 0 评论 -
整理总结:机器学习常用九大算法
本篇目录一、决策树I、ID3算法II、C4.5算法III、CART算法二、贝叶斯三、支持向量机(SVM)四、K最近邻(KNN)五、K均值聚类(K-Means)六、EM聚类七、关联规则挖掘八、网页排名(PageRank)九、增强学习(Adaboost)一、决策树I、ID3算法基本原理优势与缺陷代码实战II、C4.5算法基本原理优势与缺陷代码实战III、CART算法基本原理优势与缺陷代码实战二、贝叶斯三、支持向量机(SVM)四、K最近邻(KN原创 2020-07-17 12:08:35 · 785 阅读 · 0 评论 -
数据分析:数据库应用技能(二)
本篇目录一、表结构的基本特性二、SQL语言的书写规则三、定义语言 DDLI、数据库的创、删、选、查II、常用数据类型III、约束IV、数据表结构的创、增、删、选、查、改四、操作语言 DMLI、 插入操作II、 更新操作III、 删除操作五、查询语言 DQLI、SQL语句的执行顺序II、单表查询III、多表查询IV、联合查询V、子查询VI、常用函数六、控制语言 DCL一、表结构的基本特性二、SQL语言的书写规则三、定义语言 DDLI、数据库的创、删、选、查• show databases; 【原创 2020-07-11 15:38:38 · 661 阅读 · 0 评论 -
【白小纯都能看懂的】业务分析常用图形的绘制过程
本篇目录一、子弹图I、选中数据源II、操作步骤III、实现结果二、对比图I、选中数据源II、操作步骤III、实现结果三、字母饼图I、选中数据源II、操作步骤III、实现结果四、水滴图I、选中数据源II、操作步骤III、实现结果五、甘特图I、选中数据源II、操作步骤III、实现结果六、漏斗图I、选中数据源II、操作步骤III、实现结果七、帕累托图I、选中数据源II、操作步骤III、实现结果一、子弹图I、选中数据源II、操作步骤动作动作内容点击:插入【菜单栏】插入堆积柱形图(第二原创 2020-07-05 15:24:46 · 925 阅读 · 0 评论 -
整理总结:利用Python进行数据分析及思维导图
参考资料:机械工业出版社的《利用Python进行数据分析》本篇目录参考资料:机械工业出版社的《利用Python进行数据分析》第一章 准备工作I、为何利用Python进行数据分析II、重要的Python库第二章 Python语言基础、IPython及Jupyter notebookI、IPython基础II、Python语言基础第三章 内建数据结构、函数及文件I、数据结构和序列II、函数III、文件与操作系统第一章 准备工作I、为何利用Python进行数据分析Python作为胶水,很容易整合C、C+原创 2020-06-25 20:37:43 · 1600 阅读 · 0 评论 -
数据分析: EXCEL业务分析(一)
本篇目录第一天I、数据分析概述II、EXCEL常用函数III、数据透视表IV、数据作图第二天I、工具辅助:项目排期表II、工具辅助:员工考勤表第三天I、数据与指标概述II、指标应用III、综合案例:员工考勤表IV、综合案例:活动评估第四天I、业务数据分析方法论II、帕累托分析III、RFM模型第五天I、树状分析方法论II、报告撰写第一天I、数据分析概述数据分析是根据方法论的指导,使用数据分析软件实现数据价值发现的过程。数据分析的目的是记录业务轨迹,为未来业务决策提供参考及思考。数据分析的分类有业原创 2020-07-04 09:31:28 · 1565 阅读 · 0 评论