
数据分析
文章平均质量分 66
Rango_lhl
记录一个数据老狗的攒知识之路
展开
-
基于Python开发数据宽表实例
搭建宽表作用,就是为了让业务部门的数据分析人员,在日常工作可以直接提取所需指标,快速做出对应专题的数据分析。在实际工作中,数据量及数据源繁多,如果每个数据分析人员都从计算加工到出报告,除了工作效率巨慢也会导致服务器资源紧张。因此建设数据集市层,包含了该宽表层并在非工作时间做自动生成。本文引用CDNow网站的一份用户购买CD明细数据,梳理业务需求,搭建一套数据宽表。该CD数据包括用户ID,购买日期,购买数量,购买金额四个字段(此项目中用userid,datatime,products,amounts字段原创 2021-01-14 11:31:32 · 627 阅读 · 0 评论 -
决策树(decision tree)——连续值处理
转载至决策树(decision tree)(三)——连续值处理| 连续值处理 因为连续属性的可取值数目不再有限,因此不能像前面处理离散属性枚举离散属性取值来对结点进行划分。因此需要连续属性离散化,常用的离散化策略是二分法,这个技术也是C4.5中采用的策略。下面来具体介绍下,如何采用二分法对连续属性离散化: 下面举个具体的例子,来看看到底是怎样划分的。给定数据集如下(数据集来自周志华《机...转载 2018-05-03 17:05:23 · 2186 阅读 · 0 评论 -
模型稳定度指标PSI
群体稳定性指标PSI(Population Stability Index)是衡量模型的预测值与实际值偏差大小的指标。PSI = sum((实际占比-预期占比)* ln(实际占比/预期占比))举例:比如训练一个logistic回归模型,预测时候会有个概率输出p。测试集上的输出设定为p1吧,将它从小到大排序后10等分,如0-0.1,0.1-0.2,......。现在用这个模型去...原创 2018-08-03 15:20:06 · 19169 阅读 · 0 评论 -
Python绘制雷达图(俗称六芒星)
原文链接:https://blog.youkuaiyun.com/Just_youHG/article/details/83904618 背景《Python数据分析与挖掘实战》 案例2–航空公司客户价值分析在该案例中的雷达图缺少相应的代码,查看相关文档之后,实现的代码如下。数据用于作图的数据对象名为data_cluster,数据展示如下:注:其中(ZL,ZR,ZF,ZM,ZC)...转载 2018-12-19 15:59:45 · 5230 阅读 · 0 评论 -
K-means最优K值计算(利用SSE)
参考代码def distEclud(vecA, vecB): """ 计算两个向量的欧式距离的平方,并返回 """ return np.sum(np.power(vecA - vecB, 2)) def test_Kmeans_nclusters(data_train): """ 计算不同的k值时,SSE的大小变化 """转载 2018-12-19 16:52:04 · 8762 阅读 · 0 评论