
机器学习算法
文章平均质量分 93
宝贝儿好
李园园
展开
-
kaggle比赛案例:Elo Merchant Category Recommendation(2)
思来想去,根据这个指标的业务背景,就是商户的商户的细分品类,其实这个特征是非常非常重要的,可以代表信用卡主对哪种商品的喜好,所以这里我就把这个特征处理成信用卡用户的“刷卡集中度”这个指标,就是用商户的种类/刷卡次数,反应客户是经常在集中的几种商品上刷卡还是分散很多很多商品上刷卡,如果集中度很高,就说明这个客户最喜欢某种商品,如果集中度很低,就说明这个客户的爱好广泛。交易表中除了card_id外,共有15个特征,其中11个取有限值的分类特征,3个特征是取值非常多的分类特征,1个特征是连续性特征。原创 2023-12-14 16:46:29 · 1560 阅读 · 1 评论 -
kaggle比赛案例:Elo Merchant Category Recommendation(1)
kaggle比赛案例1:Elo Merchant Category Recommendation学习深度学习之前,机器学习也是不可少的一个基础,鉴于没有时间写一个个经典的机器学习模型,这里我就写一个kaggle比赛案例,以此来回顾一下机器学习的内容。之所以使用这个案例是因为,一是这个案例是真实场景的案例,当时有大约四千多个参赛者,奖金池也高达5万美元,属于算法竞赛中的大型赛事,所以值得复现;二是目前网上有很多人分享了很多关于这个案例的心得和总结,这样我们就会有一个baseline,在实际动手过程中不会原创 2023-12-14 16:36:58 · 1447 阅读 · 0 评论 -
【机器学习算法】: MeanShift算法
之所以把这个算法单独拿出来讲解,是因为这个算法比较有用,很多算法搭配这个算法,实现起来效果会更好,但是这个算法放到哪个章节都显得很突兀,因为这个算法其实是一个机器学习中的聚类算法,所以应该把这个算法和其他几种聚类算法比如kmeans、DBSCAN、层次聚类算法Birch等放在一起写,但是由于精力有限,先单独成一章把这个算法说清楚吧,而且这个算法的亮点就是用在图像处理领域。其他几种聚类算法以后有机会再写机器学习算法时再写吧。原创 2024-03-12 10:15:56 · 2102 阅读 · 0 评论 -
【机器学习算法】三、集成算法:RF、AdaBoost、GBDT、XGBoost、LightGBM、Stacking模型融合
集成算法就是建立很多个弱评估器(也叫基评估器),然后以某种集成规则把这些弱评估的评估结果集成,从而达到比单个弱评估器更好的效果。核心思想就是三个臭皮匠顶个诸葛亮。臭皮匠是谁?决策树、线性回归、逻辑回归、朴素贝叶斯、SVM、KNN等等都可以,就是这些单个评估器都可以当作基评估器。三个臭皮匠能顶一个诸葛亮吗?假如有3个弱评估器,每个弱评估器的效果都是0.6,这里先简单的以少数服从多数的集成规则进行集成,集成后的准确率是0.6*0.6*0.6+3*0.6*0.6*0.4=0.6479999999999999。原创 2023-12-23 13:09:06 · 3338 阅读 · 0 评论 -
【机器学习算法】二、决策树
二、决策树决策树也是机器学习算法中的入门算法,算法原理简单效果良好,尤其是以树模型为基础的各种集成算法,更是功能强大,预测准确,还适用各种数据。决策树作为树一族算法的基模型,我觉得非常有必要认真梳理一下。(一)决策树的基本原理语言太苍白,看下图:1、左边的表格是和决策树算法匹配的数据形式,前面讲KNN时,一开始就是说,了解一个算法之前首先要了解它的数据。决策树算法的数据也是一个二维表格数据,就是有行有列,行表示样本,列表示特征,当然还得有标签列,因为决策树也是一个有监督模型,没标签是没法原创 2023-12-19 14:50:48 · 1716 阅读 · 0 评论 -
【机器学习算法】一、KNN
计算预测样本与训练样本之间的距离,找出与预测样本最近的K个训练样本的标签,然后以少数服从多数的原则(majority-voting),将预测样本与K个最邻近样本中所属类别占比较多的归为一类。其指导思想是“近朱者赤,近墨者黑”,即由你的邻居来推断出你的类别。(2)KNN是一个惰性模型,就是它不用提前学习,当开始预测时,逐个遍历训练数据进行距离计算。(5)注意标签,标签必须是数值型,而且必须是一维的。(4)当样本分布重叠的时候,这个算法也不合适。(1)KNN算法是用于分类任务的。3、KNN原理及相关数学。原创 2023-12-18 10:18:53 · 1898 阅读 · 0 评论