- 博客(7)
- 收藏
- 关注
原创 集成学习(Ensemble Learning)及代码分享
训练可以并行化,对于大规模样本的训练具有速度的优势;由于进行随机选择决策树划分特征列表,这样在样本维度比较高的时候,仍然具有比较高的训练性能;给以给出各个特征的重要性列表;由于存在随机抽样,训练出来的模型方差小,泛化能力强,能够缓解过拟合的情况;RF实现简单;对于部分特征的缺失不敏感。RF的主要缺点:在某些噪音比较大的特征上(数据特别异常情况),RF模型容易陷入过拟合;取值比较多的划分特征对RF的决策会产生更大的影响,从而有可能影响模型的效果。
2023-06-19 13:38:11
1484
原创 决策树算法
*1:**决策树直观理解,如上图所示:当构建好一个判断模型后,新来一个用户后,可以根据构建好的模型直接进行判断,比如新用户特性为:无房产、单身、年收入55K,那么根据判断得出该用户无法进行债务偿还。这种决策对于借贷业务有比较好的指导意义。
2023-06-14 15:51:28
358
原创 逻辑回归以及源码分享
线性模型一般用于回归问题,Logistic和Softmax模型一般用于分类问题求θ的主要方式是梯度下降算法,梯度下降算法是参数优化的重要手段,主要是SGD,适用于在线学习以及跳出局部极小值Logistic/Softmax回归是实践中解决分类问题的最重要的方法广义线性模型对样本要求不必要服从正态分布、只需要服从指数分布簇(二项分布、泊松分布、伯努利分布、指数分布等)即可;广义线性模型的自变量可以是连续的也可以是离散的。
2023-02-21 18:23:06
222
1
原创 回归算法以及源码分享
回归算法是一种有监督算法回归算法是一种比较常用的机器学习算法,用来建立“解释”变量(自变量X)和观测值(因变量Y)之间的关系;从机器学习的角度来讲,用于构建一个算法模型(函数)来做属性(X)与标签(Y)之间的映射关系,在算法的学习过程中,试图寻找一个函数 使得参数之间的关系拟合性最好。回归算法中算法(函数)的最终结果是一个连续的数据值,输入值(属性值)是一个d维度的属性/数值向量举个例子对于房屋租赁价格画出如下图:横坐标为房屋租赁面积10,纵坐标是租赁价格。
2020-12-21 23:12:03
12667
2
原创 机器学习入门了解
机器学习概述机器学习入门1.机器学习的定义2.机器学习、人工智能和深度学习的关系1.机器学习理性认识2.相互关系3.机器学习基本概念和常用的应用场景1.机器学习概念2.机器学习与人工智能3.机器学习所用到的数据与词语4.机器学习商业场景4.机器学习、数据分析、数据挖掘的区别与联系5.机器学习分类分类1分类2(根据数据)常见模型6.机器学习数据处理流程模型训练及测试模型评估1.分类模型评估:2.回归模型评估3.代码中掉包直接用来评估pandas里缺失值处理pandas里的常见统计方法pandas 属性介绍pandas中的series的建立先说说series ,series由numpy建立,如下;#series的建立##通过numpy的一维数组建立se = Series(np.array([1,2,3,4]))print("通过numpy的一维数组建立\n",se)##通过列表
2020-12-17 11:52:49
306
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人