
数据分析
文章平均质量分 95
机器学习的相关算法
奈何桥上的幽灵野草
这个作者很懒,什么都没留下…
展开
-
Numpy学习
numpy学习原创 2022-08-01 23:46:38 · 360 阅读 · 0 评论 -
风控项目06---评分卡模型构建
这里写目录标题一: 模型构建流程:1.1: 实验设计:1.2: 样本设计:二: 逻辑回归评分卡:三:集成学习评分卡:四:整体流程梳理:一: 模型构建流程:1.1: 实验设计:1.2: 样本设计:1: 设计样本的观察期和表现期:2:还款状态和DPD一起刻画了用户的逾期情况:A卡 申请新客 B卡未逾期老客 C卡 逾期老客当前逾期:出现逾期且到观测点为止未还清 NA,PA历史逾期:曾经出现过逾期已还清或当前逾期 FA,NA,PA案例分析:二: 逻辑回归评分卡:三:集成学习评分卡:四原创 2021-02-16 16:14:02 · 1014 阅读 · 1 评论 -
(九)机器学习---决策树
目录一:方差与偏差:二:决策树的介绍:三:代码实现决策树:四:熵:1:特征选择问题:2:熵的概念:3:代码实现熵:五:信息增益(熵增益):1: 信息增益的描述:2: 信息增益算法:一:方差与偏差:1:方差:描述的是数据本身的一种分布情况。2:偏差:实验值与目标值之间的差异程度。3:如果方差很小,对我们模型来说是没有任何帮助的,我们就会去掉这些值。例如:身高都是1.6米左右,我们就去掉身高这一列。二:决策树的介绍:1: 决策树天然解决多分类问题。2:决策树可以做多分类问题。3:决策树是原创 2020-12-12 16:52:16 · 517 阅读 · 1 评论 -
(十一)机器学习---集成学习GBDT算法详解
一:CART回归树问题一:GBDT为什么用CART回归树,而不用CART分类树?答:因为GBDT每次迭代要拟合的是梯度值,是连续值所以要⽤回归树。问题二:CART回归树划分最佳的划分点的判断标准是什么?答:回归树因为样本标签是连续数值,所以再使⽤熵之类的指标 不再合适,取⽽代之的是平⽅误差,它能很好的评判拟合程度。...原创 2020-12-12 16:26:08 · 587 阅读 · 0 评论 -
(十二)机器学习---聚类算法概述
目录一:聚类算法描述:二:聚类算法的API使用:三: k-means聚类:1:聚类算法的计算流程:2:聚类算法的案例分析:四:模型评估方案:1:误差平方和(SSE):2:“肘”方法确定K值3:轮廓系数法:4:CH系数:五:聚类算法的优化:1:聚类算法存在哪些缺点?2:Canopy算法过程:3:Canopy算法的优缺点:4:K-means++:5:一:聚类算法描述:1:聚类算法属于无监督学习,所以是没有标签的,千万不能将聚类说成分类。2:聚类算法的作用:将相似的样本自动的归类到一个类别中。3:与聚类原创 2020-12-12 08:38:05 · 1873 阅读 · 0 评论 -
(十六) Pyecharts绘图
一:准备工作:1:加载招聘信息:2: 安装Pyecharts:一:柱状图:1: 分析哪些城市在数据分析的岗位多::2:绘制柱状图:from pyecharts import options as optsfrom pyecharts.charts import Barc = ( Bar() # 创建柱状图 .add_xaxis(city_job_top20.index.tolist()) #添加x轴数据 .add_yaxis('数据分析就业岗位数量', city原创 2020-12-04 19:13:57 · 3977 阅读 · 1 评论 -
(十五)Seaborn画图
目录一:Seaborn介绍:二:单变量图:三:双变量的图:四:多变量的图:五:Seaborn主题和样式:一:Seaborn介绍:1:Seaborn是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,在大多数情况下使用seaborn能做出很具有吸引力的图,而使用matplotlib就能制作具有更多特色的图。2:Seaborn和Pandas的API配合的很好,使用DataFrame/Series的数据就可以绘图。案例:二:单变量图:三:双变量的图:四:多变量的图:原创 2020-12-04 17:48:58 · 2422 阅读 · 0 评论 -
(十四)Pandas绘图
目录一:Pandas单变量可视化:1: 柱状图:一:Pandas单变量可视化:1: 柱状图:案例:将所有的葡萄酒品牌按照产区分类,看看哪个产区的葡萄酒品种多。原创 2020-12-04 09:53:02 · 1125 阅读 · 0 评论 -
(十三)Python数据可视化(Matplotlib绘图)
目录一:数据可视化常用的库:二:Matplotlib绘图:1: Matplotlib绘图入门:2:matplotlib 数据可视化案例:3:使用matplotlib绘制统计图:3.1: 直方图:3.2:散点图:一:数据可视化常用的库:二:Matplotlib绘图:1: Matplotlib绘图入门:1:作图的两种方法—状态接口:2: 作图的两种方法—面向对象:2:matplotlib 数据可视化案例:3:使用matplotlib绘制统计图:3.1: 直方图:1:直方图一般用原创 2020-12-03 21:47:07 · 583 阅读 · 0 评论 -
(十二)datetime数据类型
目录一:python的datetime类型:二:pandas中的数据转换成datetime:三:提取日期的各个部分:四:日期运算和Timedalta:5: 处理股票数据:6:日期范围:一:python的datetime类型:二:pandas中的数据转换成datetime:1: 加载数据:2:转换成datetime类型:3:如果数据中包含日期时间数据,可以在加载的时候,通过parse_dates参数指定,则直接转换成datetime类型:三:提取日期的各个部分:1: 提取数据的简单部分:原创 2020-12-03 20:39:29 · 15200 阅读 · 1 评论 -
(十一)数据透视表
一:透视表概述:透视表,就是长数据转换成宽数据二:零售会员数据分析:1:业务背景介绍:2:会员存量,增量分析:1:每月存量,增量是最基本的指标,通过会员数量考察会员运营情况。0: 加载信息:1: 需要按月统计注册的会员数量,注册时间原始数据需要处理成年-月的形式:2:根据 “注册年月” 这一列进行分组, 然后在组内取出会员卡号进行统计数量。3:使用数据透视表实现相同的功能:4:计算存量 cumsum 对某一列 做累积求和 1 1+2 1+2+3 1+2+3+4 …:5:原创 2020-12-03 19:19:28 · 716 阅读 · 0 评论 -
(十)分组操作
目录一: 聚合:1: 单变量分组聚合:2: Pandas内置的聚合方法:3: 聚合函数:二:转换:三:过滤:四:分组:一: 聚合:1: 单变量分组聚合:2: Pandas内置的聚合方法:案例:根据continent分组,然后计算多个统计量:3: 聚合函数:1:使用agg进行聚合:2:使用aggregate进行聚合:3:如果想在聚合的时候,使用非Pandas或其他库提供的计算, 可以自定义函数,然后再aggregate中调用它。4: 自定义函数可以有多个参数, 第一个参数接受来自原创 2020-12-03 11:17:03 · 712 阅读 · 0 评论 -
(九)apply自定义函数
一:apply函数简介:1:Pandas提供了很多数据处理的API,但当提供的API不能满足需求的时候,需要自己编写数据处理函数, 这个时候可以使用apply函数。2:apply函数可以接收一个自定义函数, 可以将DataFrame的行/列数据传递给自定义函数处理。3:apply函数类似于编写一个for循环, 遍历行/列的每一个元素,但比使用for循环效率高很多。二:Series的apply方法:1: 简单测试Series的apply方法:2:如果定义的函数需要传递过个参数?三:Dat原创 2020-12-01 20:48:22 · 3457 阅读 · 0 评论 -
(八)Pandas 数据类型
目录一:Numpy的数据类型:1:ndarray: n维数组类型:2: pandas数据类型:二:数据类型转换:1: 转换成字符串对象:2:转换成数值类型:3:变量变成数值类型:三:分类数据:1:转换成category类型的数据:一:Numpy的数据类型:1:ndarray: n维数组类型:1: 使用ndarray进行数据的存储:2:ndarrayN维数组与python中多维数组的区别:1: 速度快。2:ndarray在内存中存储的是会开辟一段连续的空间,存储的是值,而python中的lis原创 2020-12-01 17:51:13 · 7499 阅读 · 1 评论 -
(七)整理数据
目录一:melt整理数据:1: melt参数信息:2: 将原有表重新构造成长表:3:修改列名:4: 固定多列转换少数列:4:对表进行拆分:二:stack整理数据:三: wide_to_long整理数据:四:使用unstack处理数据:一:melt整理数据:1: melt参数信息:从数据分析的角度,有时候我们需要把数据由"宽"数据,转换成”长”数据。2: 将原有表重新构造成长表:pew_long = pd.melt(pew,id_vars=‘religion’)3:修改列名:原有转换默认原创 2020-12-01 16:05:26 · 943 阅读 · 1 评论 -
(六)缺失数据的处理
目录一:了解NaN:二:缺失值加载:1:加载数据,不包含缺失值:2:缺失值的处理:一:了解NaN:1: NaN啥也不是:注意使用一定要导包:from numpy import NaN,nan,NAN二:缺失值加载:1:加载数据,不包含缺失值:2:缺失值的处理:...原创 2020-12-01 10:29:39 · 1455 阅读 · 0 评论 -
(五)数据组合
目录一:连接数据:1:添加行2: 添加列:3:concat连接具有不同列索引的数据:4:concat连接具有不同行索引的数据:二:合并数据集:1: 一对一合并:2: 多对一合并:3: 时间的转换:4:合并三张表:5: 使用assign添加一个列:6: join合并:一:连接数据:1: 合并文件:concat([文件1, 文件2, 文件3])2:使用iloc和使用loc查看某个列的区别。3:DataFrame与Series进行合并,发生的情况。4:DataFrame与DataFrame合并。1原创 2020-11-30 20:47:36 · 867 阅读 · 0 评论 -
(四)Pandas数据分析入门
目录一: 统计:二:排序:三:案例分析:一: 统计:1: 加载数据:import pandas as pdcollege = pd.read_csv(‘C:/Users/11737/Desktop/机器学习课件/data/college.csv’)college.head()2:统计数据的列:college.columns3:查看数据的行和列:college.shape4:统计每列的数值信息:college.describe()5: 统计每列的数值信息,然后转置。原创 2020-11-30 14:15:15 · 909 阅读 · 1 评论 -
(三)Pandas的两种数据结构
目录一:Pandas的两种数据结构:二:Series创建和属性:1:Series的创建:2:Series常见的属性:3:Series常见的方法:4:Series的布尔索引:5:Series的运算:三:DataFrame创建和属性以及方法:1:DataFrame的创建:2:DataFrame常见的属性:3:DataFrame的布尔索引:4:DataFrame的运算:一:Pandas的两种数据结构:Series : Series是一个一维的容器。和python的列表很相似,但是每个元素的数据类型必须相同。原创 2020-11-30 14:57:01 · 3911 阅读 · 0 评论 -
(二)Pandas DateFrame入门
目录一:介绍:二:安装pandas:三:加载数据集与展示数据:四: 查看部分数据:五:iloc与loc的区别:六:分组与聚合计算:七:基本的绘图功能:一:介绍:Pandas是用于数据分析的开源Python库,可以实现数据加载,清洗,转换,统计处理,可视化等功能DataFrame和Series是Pandas最基本的两种数据结构DataFrame用来处理结构化数据(SQL数据表,Excel表格)Series用来处理单列数据,也可以把DataFrame看作由Series对象组成的字典或集合。二:安原创 2020-11-29 18:39:02 · 742 阅读 · 0 评论 -
(一)Anaconda的安装和使用
目录一: Anaconda的安装与配置:1:下载安装包,安装到windows。2: 配置环境变量:将Anaconda\Scripts添加到环境变量。3:更改windows下载源:4:创建虚拟环境:5: 下载jupyter_contrib_nbextensions6:配置拓展功能:二:Anaconda的基本使用:1:创建虚拟环境:2:虚拟环境中安装包:三:Jupyter NoteBook的使用:1: 进入Jupyter NoteBook:2:创建notebook文件并修改文件名:3:常用快捷键:一: Ana原创 2020-11-29 13:49:40 · 709 阅读 · 1 评论 -
(十)机器学习---集成学习思想概述
目录一:什么是集成学习?二:Bagging介绍:一:什么是集成学习?1:集成学习 (Ensemble Learning) 算法的基本思想:将多个分类器组合,从而实现一个预测效果更好的集成分类器。2: 工作原理:生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成组合预测,因此优于任何一个单分类的做出预测。3:集成算法的分类:Bagging,Boosting 和Stacking等类型。二:Bagging介绍:...原创 2020-12-10 21:25:35 · 1225 阅读 · 0 评论 -
(七)机器学习---逻辑回归
目录一:逻辑回归介绍:二:逻辑回归问题的原理:三:逻辑回归的损失问题:四:逻辑回归的优化:五:逻辑回归API介绍:六:分类评估方法:1:混淆矩阵:2:精准率和召回率:3:TPR 与FPR:4:ROC曲线:5:AUC指标:一:逻辑回归介绍:1: 逻辑回归解决的是分类问题,不是回归问题。2:逻辑回归解决的是二分类问题。3: 逻辑回归问题处理的样本大多数是样本不均衡的。4:逻辑回归用到的业务场景:广告点击率,是否为垃圾邮件,是否患病,金融诈骗,虚假账号。二:逻辑回归问题的原理:1:逻辑回归的原原创 2020-12-09 13:59:45 · 490 阅读 · 1 评论 -
(六)机器学习---销售额预测分析(线性回归分析案例)
目录一: 背景:二:数据概况分析:三:单变量分析:一: 背景:1: 分析的目的:对各类因素投入产出比做出评估。2: 分析的数据:电视广告,线上,线下,门店内,微信渠道等促销投入和销售额之间的关系。3:数据的说明:4: 分析流程:二:数据概况分析:1:查看数据的前5条记录:2:查看数据的基本信息:3:统计各个列哪些存在空值,以及空值的数量:由于缺失的不多,后期考虑直接删除。三:单变量分析:1:数据分布信息:各个列的最大值,平均值,中位数,众数等。2:使用de原创 2020-12-08 22:17:50 · 9694 阅读 · 8 评论 -
(五)机器学习---线性回归
目录一:波士顿房价预测:1:使用正规方程求解:2:使用梯度下降算法:二:过拟合和欠拟合:一:波士顿房价预测:1:使用正规方程求解:1:导包:from sklearn.datasets import load_bostonfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScalerfrom sklearn.metrics import mean_square原创 2020-12-08 17:06:17 · 488 阅读 · 0 评论 -
(四)机器学习---线性回归简单介绍
目录一:线性回归介绍:1: 线性回归的应用场景:2:定义与公式:二:线性回归API使用:三:求导回顾:1:常见函数的导数:2:导数的四则运算:四:线性回归的损失和优化1:损失函数的定义:2:正规方程:3:梯度下降:4:正规方程和梯度下降的对比:一:线性回归介绍:1: 线性回归的应用场景:1:房价预测。2:销售额度预测。3:贷款额度预测。2:定义与公式:1:线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一原创 2020-12-07 13:17:14 · 1301 阅读 · 0 评论 -
(三)机器学习----KNN算法的案例
目录一:KNN算法的优缺点:1:优点:2:缺点:二:预测facebook签到位置:1:项目描述:2: 数据集描述:3:步骤分析:4:代码实现:一:KNN算法的优缺点:1:优点:1:天然能够解决多分类问题。2:思想简单,效果强大。3:使用k-近邻算法还可以解决回归问题。2:缺点:1:效率低下:如果训练集有m个样本,n个特征,则预测每一个新的数据,需要O(m*n)的时间复杂度。(计算每个点的距离)1.1:优化方案:使用树结构:K-D tree、Ball-Tree,即便如此,k-近邻算法仍原创 2020-12-07 10:36:47 · 1691 阅读 · 1 评论 -
(二)机器学习---K近邻算法(KNN)
目录一:K邻近算法介绍:1:欧拉距离:2:使用K邻近算法实现分类:3: sklearn中knn算法的应用:4:自己写代码模拟KNN算法(了解):二:划分数据集:三:划分精确度:四:超参化:五:归一化:六:案例分析:一:K邻近算法介绍:1:首先要有原始已知标签的数据。2:把需要预测的点和所有已知的点计算距离。3:找到和待遇测点最近的K个点。4:根据K个点的标签确定待测点的标签。KNN算法可以做回归问题,也可以做分类问题。knn算法没有得到模型,它是机器学习中唯一一个不需要训练过程的算法。原创 2020-12-07 09:22:37 · 1119 阅读 · 0 评论 -
(一)机器学习---概述
目录一:人工智能概述:1:人工智能应用的场景:2:人工智能,机器学习,深度学习的关系:二:机器学习概述:1:什么是机器学习?2:机器学习的工作流程:3:数据集:4:数据的类型:5:数据分割:6:数据的基本处理:7:特征工程:8:机器学习:9:模型评估:三:机器学习算法分类:1:监督学习2:无监督学习:3:半监督学习:4:强化学习:四:模型的评估:1:分类模型评估:2:回归模型评估:3:拟合:一:人工智能概述:1:人工智能应用的场景:1:人脸识别技术,图像识别技术。2:机器翻译:谷歌翻译,有道翻译。原创 2020-12-04 21:12:37 · 524 阅读 · 0 评论