- 博客(7)
- 收藏
- 关注
原创 【excel】销售数据看板
某公司线上销售办公用品及部分家具,产品有3大类、17种,客户分布在不同的区域。假设希望通过真实的销售数据搭建可视化看板来直观了解总体销售情况。以下是销售系统导出的2015-2018年的销售数据,共计9959条数据,字段内容如下。
2025-01-21 09:16:05
489
原创 【机器学习实战】用随机森林预测在线购物者的购买意向
模型性能分析:模型的准确率为0.91,表明模型在大多数情况下能够正确预测用户的购买意向。这是一个积极的指标,显示模型具有较高的可靠性。精确率为0.84,意味着模型预测的购买用户中有84%是正确的。这有助于提高营销活动的目标性和效率。召回率为0.54,相对较低,指出模型未能识别出近一半的实际购买用户。这可能导致错失销售机会,需要通过调整模型策略或阈值来提升。AUC为0.93,显示模型在区分不同类别方面表现良好。然而,高AUC并不总是直接转化为高召回率,因此需要结合其他指标综合评估。
2024-09-06 22:49:35
2178
5
原创 【机器学习实战】用KNN算法预测电信公司的客户是否流失
本次数据集来自UCI机器学习库中的电信流失数据集。该数据集是在 12 个月内从伊朗某电信公司数据库中随机收集的。通过收集客户数据、清洗、选择关键特征、建立预测模型、评估和优化模型等步骤,帮助企业了解客户行为模式,并采取相应措施来最大程度地减少流失、提高留存。
2024-08-27 06:42:07
2414
原创 【机器学习笔记】KNN算法和k-means算法对比
中的。用于分类或回归问题,通常用作分类算法。在处理一个未知样本时,先找出训练集中距离K个已知样本,然后根据这K个已知样本的类别标签来预测测试集样本的类别。在分类问题中,通常选择出现作为预测结果;在回归问题中,则计算这K个临近值的作为预测结果。
2024-08-14 16:54:10
3367
原创 【机器学习实战】用决策树模型预测银行客户是否会认购定期存款
除了以上几种优化还可以从其他方面进行改进:1.本案例中,填充缺失值的方法选择常见类别填充,除此之外还可以选择使用一些机器学习算法预测缺失值进行填充;2.特征编码方法的选择也会影响模型的构建,可以尝试其他编码方法后,选择最佳一种;3.本数据集的正样本和负样本明显不均衡,下一个优化方向可以是对此进行改进;4.调整RFECV方法的基模型或者是选择其他特征选择方法,得到新的特征子集,新的特征子集有可能带来更好的结果;5.我为了熟悉对决策树的应用,只训练了决策树模型。
2024-08-07 04:22:51
2477
2
原创 【机器学习笔记】决策树剪枝
预剪枝:在决策树生成过程中,对每个结点在划分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划分并将当前结点标记为叶结点。优点:1.降低了过拟合的风险。2.减少了决策树的训练时间开销和测试时间开销。缺点:1.有欠拟合的风险后剪枝:先从训练集生成一棵完整的决策树,然后自底向上地对非叶结点进行考察,若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升,则将该子树替换为叶结点。优点:1.欠拟合风险很小。2.泛化性能往往优于预剪枝决策树。
2024-07-24 21:46:48
940
2
原创 【机器学习笔记】决策树原理+手算例题
思路:按照某个特征对数据进行划分,这个特征能够最大程度地将原本混乱的结果尽可能划分为有序的几大类,那就以这个特征为跟结点,接着不断重复这一过程直到决策树构建完成。当特征X取值类别较多时,式中的分母也会增大,从而降低了 “偏向取值较多的特征” 这一影响。对比其信息增益,发现是否有自己的房子这一特征,信息增益值最大,所以选择这一特征为根节点。ID3算法的缺点:以信息增益作为划分数据集的特征时,其偏向于选择取值较多的特征。所以构建决策树的实质是对特征进行层次选择,而衡量特征选择的合理性指标,则是熵。
2024-07-20 02:34:07
1718
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人