
机器学习
文章平均质量分 76
BigDataMLApplication
spark hadoop flink kafka 海量流批数据处理 、 机器学习、 运筹开发、运维等十年大数据和人工智能搬砖经验,欢迎关注
展开
-
【Spark ML系列】 LogisticRegression源码分析
LogisticRegressionModel 类是 Apache Spark ML 中逻辑回归模型的表示。逻辑回归模型是一种常见的分类模型,可以用于二元分类和多类分类问题。该类提供了获取模型系数、截距以及进行预测和评估的功能。LogisticRegression类是Spark ML中的逻辑回归模型类。它支持多分类和二分类问题,并且可以通过LBFGS/OWLQN进行传统逻辑回归模型的拟合,或者通过LBFGSB进行边界(箱式)约束逻辑回归模型的拟合。原创 2023-09-14 00:00:56 · 161 阅读 · 1 评论 -
Spark MLlib Predictor 源码解析
Predictor 抽象类是预测任务(回归和分类)的基类,它扩展了 Estimator 并混入了 PredictorParams 特质。它定义了训练预测模型的主要流程,并实现了 fit() 方法和一些辅助方法。开发人员只需实现 train() 方法来训练模型。原创 2023-09-08 23:44:40 · 97 阅读 · 0 评论 -
Spark MLlib Params 源码解析
Params 是一个 trait,用于组件中需要使用参数的情况。它还提供了一个内部的参数映射来存储附加到实例上的参数值。原创 2023-09-08 23:33:16 · 65 阅读 · 0 评论 -
Spark MLlib Param 源码解析
Param 类是 Spark MLlib 中用于定义算法参数的通用类。它可以用于各种机器学习算法中,包括分类、回归、聚类等。通过 Param 类,开发者可以定义自己的参数,并对参数值进行验证,以确保参数值的有效性。类还提供了一些构造函数,可以根据不同的参数来创建实例。它还提供了一些方法,如。类是一个带有自包含文档和可选默认值的参数。方法,以便在比较和打印参数时能够正确工作。方法,用于从 JSON 字符串解码参数值。原创 2023-09-08 23:22:38 · 78 阅读 · 0 评论 -
经典推荐算法研究综述-系列1
经典推荐算法研究综述[1]在推荐系统中,典型的推荐问题主要有两种:评分预测和Top-N推荐 评分预测一直是推荐系统研究的热点,是指根据用户对项目的历史评分,学习用户的兴趣模型,预测用户对未评分项目的打分;而 Top-N推荐通常更符合实际的应用需求,是指提供用户可能喜欢的前N个项目的有序列表。 基于以上推荐问题,学术界和工业界提出了很多推荐理论和技术。经典的推荐算法主要分为三类:基于内容的推荐算法、协同过滤推荐算法和混合推荐算法[3]。基于内容的推荐算法充分利用用户的个人资料和项目的特征来生成推荐项,向原创 2021-07-25 10:27:32 · 788 阅读 · 0 评论 -
信息增益最通俗解释
(1)在决策树的每一个非叶子结点划分之前,先计算每一个属性所带来的信息增益,选择最大信息增益的属性来划分,因为信息增益(原系统熵-该属性比例X该属性的熵)越大,区分样本的能力就越强,越具有代表性,很显然这是一种自顶向下的贪心策略。(2) 原信息的混乱程度很严重,所以熵比较大;而知道某个属性和原信息有关时,相当于知道了更多的信息,所以原信息的混乱程度减少(熵减少),信息增益会变大...原创 2019-08-04 17:49:09 · 1850 阅读 · 0 评论