
机器学习
文章平均质量分 68
架构师老狼
资深架构师,专注于区块链、微服务、大数据研究!坚定信念,乐观心态,永不止步!
展开
-
Spark ML处理样本类别不均衡问题
样本类别分布不均衡导致的危害?样本类别不均衡将导致样本量少的分类所包含的特征过少,并很难从中提取规律;即使得到分类模型,也容易产生过度依赖与有限的数据样本而导致过拟合问题,当模型应用到新的数据上时,模型的准确性会很差解决类别不平衡数据1 过采样代表性算法-SMOTE1.1 算法思想为了解决随机过采样中造成模型过拟合问题,⼜能保证实现数据集均衡的⽬的,出现了过采样法代表性的算法SMOTE 算法。SMOTE算法是对随机过采样⽅法的⼀个改进算法,由于随机过采样⽅法是直接对少数类进⾏重采⽤,会使原创 2021-12-21 11:44:12 · 1465 阅读 · 0 评论 -
用户画像 - 挖掘标签
RFM 用户价值模型1 需求假设我是一个市场营销者, 在做一次活动之前, 我可能会思考如下问题谁是我比较有价值的客户?谁是比较有潜力成为有价值的客户?谁快要流失了?谁能够留下来?谁会关心这次活动?其实上面这些思考, 都围绕一个主题 价值RFM 是一个最常见的用来评估价值的和潜在价值的工具2 RFM 是什么RFM通过最后一次消费距今时间, 单位时间内的消费频率, 平均消费金额来评估一个人对公司的价值, 可以理解为 RFM 是一个集成的值, 如下RFM = Rencency(最后一原创 2021-06-19 19:14:57 · 1681 阅读 · 0 评论 -
开源精选 - Spark个性化推荐算法
理论篇1 推荐系统的意义 - 解决信息过载搜索引擎时代分类导航:雅虎搜索:谷歌、百度个性化时代(提高用户粘度、增加营收)系统自动推荐相关的东西:今日头条、豆瓣、电商2 推荐系统的分类基于人口统计学的推荐基于内容的推荐基于协同过滤的推荐3 基于人口统计学的推荐基于人口统计学的推荐机制(Demographic-based Recommendation)是...原创 2020-02-18 18:13:14 · 3072 阅读 · 0 评论 -
K-近邻算法实例分析
一级分类:监督学习,二级分类:分类(离散问题),三级分类:k-近邻算法'''@description : 算法优点: a简单、易于理解、易于实现、无需估计参数、无需训练 算法缺点: a懒惰算法,对测试样本分类时计算量大,内存开销大 b必须制定k值,k值得选择不当则分类精度不能保证@author wolf@time 2018-...原创 2018-08-03 17:06:43 · 1560 阅读 · 1 评论 -
朴素贝叶斯算法推导分析
'''@description :一级分类:监督学习,二级分类:分类(离散问题),三级分类:贝叶斯算法 算法优点: a 朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率 b 对缺失的数据不太敏感,算法也比较简 c 分类问题准确度高、速度快 算法缺点: a 由于使用了样本属性独立性的假设,所以如果样本属性有关联时其效...原创 2018-08-03 17:11:14 · 1300 阅读 · 0 评论 -
机器学习系列之特征工程
'''@description 特征工程 - Preprocess 1 框架:scikit-learn,依赖模块:scipy、pandas、numpy 2 pip3 install scikit-learn -i http://pypi.douban.com/simple --trusted-host pypi.douban.com 3 模型 = 数据 + 算法 ...原创 2018-08-03 18:11:00 · 278 阅读 · 0 评论 -
逻辑回归算法 - 乳腺癌预测
1 目标根据历史女性乳腺癌患者数据集(医学指标)构建逻辑回归分类模型进行良/恶性乳腺癌肿瘤预测2 数据集2.1 数据集来源数据集源于威斯康星州临床科学中心。每个记录代表一个乳腺癌的随访数据样本。这些是DR Wolberg自1984~1995随访搜集连续乳腺癌患者数据,数据仅包括那些具有侵入性的病例乳腺癌并没有远处转移的医学指标数据集。2.2 特征值(医学特征)3 算法3....原创 2018-10-08 15:32:16 · 7402 阅读 · 0 评论