
机器学习
guyu1003
这个作者很懒,什么都没留下…
展开
-
基于lightgbm的kaggle比赛实践:Give me some credit
0 背景介绍Give Me Some Credit https://www.kaggle.com/c/GiveMeSomeCredit/overview,是Kaggle上关于信用评分的项目,通过改进信用评分技术,预测未来两年借款人会遇到财务困境的可能性。并以此为依据来决定是否给予借贷人信用授权。目标是建立帮助银行做出最佳财务借贷决策的模型。今天这数据类型如下:其中:SeriousDlqin2yrs代表过去两年内的情况,也是test集要预测的字段。第一部分:导入需要的包和数据impor.原创 2020-10-16 00:33:34 · 4036 阅读 · 5 评论 -
Python一种保存模型的简单方式:用joblib保存训练模型
在机器学习中,我们训练模型后,需要把模型保存在本地。利用joblib,实现简单的模型保存方式:import joblib#保存模型def save_model(model, filepath): # 后缀一般用pkl joblib.dump(model, filename=filepath)def load_model(filepath): model = joblib.load(filepath) return model...原创 2020-10-11 21:06:13 · 2374 阅读 · 0 评论 -
Python中sigmoid函数中报: RuntimeWarning: overflow encountered in exp
在sigmoid函数中使用numpy.exp的时候,遇到了RuntimeWarning: overflow encountered in exp。原因:因为参数值inx很大时,exp(inx)可能会发生溢出,有一种解决方式是对sigmoid函数实现的优化:如https://blog.youkuaiyun.com/CY_TEC/article/details/106083366def sigmoid(inx): if inx>=0: #对sigmoid函数的优化,避免了出现...原创 2020-09-08 15:57:34 · 4815 阅读 · 1 评论 -
什么是归一化,它与标准化的区别是什么?
本题解析来源:https://www.zhongxiaoping.cn/2019/01/15/%E6%A0%87%E5%87%86%E5%8C%96%E4%B8%8E%E6%AD%A3%E5%88%99%E5%8C%96/本文主要讲述的是标准化与归一化的区别,相同点和联系,重点讲述各自的使用场景,归一化主要是应用于没有距离计算的地方上,标准化则是使用在不关乎权重的地方上,因为各自丢失了距离信息和权重信息,最后还讲述了下归一化的使用场景,主要是针对数据分布差异比较大–标准化和奇异数据(单个数据对结果有影..原创 2020-09-07 22:58:09 · 10203 阅读 · 0 评论 -
为什么是Softmax?
一、softmax函数softmax用于多分类过程中,它将多个神经元的输出,映射到(0,1)区间内,可以看成概率来理解,从而来进行多分类!假设我们有一个数组,V,Vi表示V中的第i个元素,那么这个元素的softmax值就是:更形象的如下图表示:参考:1:https://www.zhihu.com/question/40403377/answer/866470172。http://freemind.pluskid.org/machine-...原创 2020-09-06 20:18:22 · 5755 阅读 · 0 评论 -
K-means聚类算法思想以及Python代码实现
K-means聚类算法 K-means也是聚类算法中最简单的一种了,但是里面包含的思想却是不一般。最早我使用并实现这个算法是在学习韩爷爷那本数据挖掘的书中,那本书比较注重应用。看了Andrew Ng的这个讲义后才有些明白K-means后面包含的EM思想。 聚类属于无监督学习,以往的回归、朴素贝叶斯、SVM等都是有类别标签y的,也就是说样例中已经给出了样例的分类。而聚类的样本中却没有给定y,只有特征x,比如假设宇宙中的星星可以表示成三维空间中的点集。聚类的目的是找到每个样本x潜在的类别...原创 2020-11-07 12:04:27 · 2264 阅读 · 0 评论 -
从线性回归(Linear regression)到逻辑回归(logistic regression)再到Softmax
线性回归 定义:给定d个属性描述示例,其中是在第i个属性上的取值,线性模型就是通过属性的线性组合来进行预测:,一般用向量形式写成:,其中,w和b学得之后,模型就得以确定。而线性回归模型是在给定数据集(其中,,),利用线性模型试图学得,使得函数.像这样有d个属性描述的线性函数,也被称为“多元线性回归”(multivariate linear regression)。为了确定中的w和b,就要利用预估值()与实际值()之间的差值。当和之间的差值越小,则认为模型越好。为评价预估值与实际值的差别,可...原创 2020-09-03 16:37:27 · 1839 阅读 · 0 评论