
数据挖掘
夏革
这个作者很懒,什么都没留下…
展开
-
样本类别不均衡的问题
样本类别数量不均衡主要出现在分类建模的情况。通常为某类别的样本数量较少,导致模型忽略了小样本的特征,由大样本主导。 面对样本数量不均的情况,常用的方法如下:抽样 常规的包含过抽样、欠抽样、组合抽样 过抽样:将样本较少的一类sample补齐 欠抽样:将样本较多的一类sample压缩 组合抽样:约定一个量级N,同时进行过抽样和欠抽样,使得正负样本量和等于约定量级N这种方法要么丢失...原创 2018-06-11 16:47:36 · 2187 阅读 · 0 评论 -
sklearn
文章目录数据预处理缺失值无量纲化标准化归一化正则化对比处理连续型变量:二值化与分段处理离散型变量:独热编码与哑变量生成多项式特征特征选择Filter过滤法方差选择法卡方检验/卡方过滤F检验互信息法总结Embedded嵌入法Wrapper包装法降维算法数据集拆分定义模型线性回归逻辑回归朴素贝叶斯算法决策树支持向量机SVMk近邻算法KNN多层感知机(神经网络)模型评估交叉验证检验曲线保存模型保存为pi...转载 2019-06-27 15:40:59 · 1908 阅读 · 0 评论 -
数据化运营算法及应用
文章目录1.分类与预测1.1 回归1.2 决策树1.3 神经网络1.4 贝叶斯分类方法1.5 支持向量机SVM1.6 KNN算法2.聚类分析3.关联规则4. 其它4.1 主成分分析4.2 假设检验目标响应概率a).宏观上,可以理解为特定消费群体整体上的概率或可能性。比如,通过卡方检验发现某个特定类别群体在某个消费行为指标上具有显著性特征,这种显著性特征可以帮助我们进行目标市场的选择,寻找具有相...转载 2019-06-27 21:17:57 · 1109 阅读 · 0 评论 -
数据化运营案例
文章目录一、目标客户的特征分析二、目标客户的预测模型(响应、分类)三、目标群体的活跃度定义四、用户路径分析五、交叉销售模型六、信息质量模型七、用户分层模型八、卖家(买家)交易模型九、信用风险模型十、商品推荐模型一、目标客户的特征分析二、目标客户的预测模型(响应、分类)逻辑回归、决策树、神经网络、支持向量机等响应模型的核心就是响应概率。根据建模数据中实际响应比例的大小进行分类,响应模型还可以...转载 2019-06-27 21:20:04 · 2095 阅读 · 0 评论