
机器学习
文章平均质量分 67
newbei5862
一切皆函数,一切皆方程,世上每一个思想和灵魂都是拟合出来的。
展开
-
批量梯度下降,随机梯度下降,mini-batch随机梯度下降对比说明
随机梯度下降的收敛速度更快,使用随机梯度下降在训练时,我们进行梯度下降的方向可能有误,但是可以通过下一次的样本训练进行一个修改,通过随机迂回的路线向全局最小值进行进发,随机梯度下降和批量梯度下降的收敛形式也不同,随机梯度下降会在一个区域(如我们圈起来的地方)中朝着全局最小值的方向徘徊,使得最后的结果非常接近全局最小值,我们就可以得到一个很好的假设,因此常用我们的梯度下降法,能得到一个很接近全局最小值的参数。...转载 2022-08-09 10:48:15 · 1095 阅读 · 0 评论 -
AI 金融行业案例清单
几年的IT工作生涯,接触了物流、金融、电商等业务领域,AI领域中更多接触到的场景主要是金融场景为主,发现目前缺乏一份金融AI案例名单。后续逐步整理相应的案例清单,供大家共同学习查阅。目前以案例名称为主,未来合适时机也可以增加实现方案或对应的文献引用。个人对金融理解也是非常有限的,如有不合适的请大家指出,如大家有适合的案例,非常欢迎提供。...原创 2022-07-29 15:23:53 · 344 阅读 · 0 评论 -
t检验只能用于样本量少于30个的数据?要做z检验吗?(转)
经常在统计教材里面看到,t检验适用于样本量n30时,还能继续使用t检验吗?很多书上都这样讲:T和Z检验公式适合不同类型的试题,可是在讲SPSS操作部分时,所有类型的题目用SPSS里的t检验计算了。比如,按照书上手算部分的讲解,只适合Z 检验的例题,可SPSS操作部分却用的是T检验,前面和费劲地讲解两个公式的区别,后面却又一样了,如何解释?在两个样本平均数的差异性检验中,什么时候用t检...转载 2022-07-01 10:02:00 · 10475 阅读 · 0 评论 -
简单线性回归——异常值的处理
学习计量经济学过程中,在考虑线性回归中如果因变量中有异常值,应该怎么处理,找到了以下信息,转载备忘一下1.当发现异常值时,首先应该回到数据中,检查是否存在数据收集或者数据录入方面的错误如果发现此类错误,则应及时更正为正确的数据,并且再次检测异常值,所以为了避免此类重复操作,在数据预处理的所有环节都应该细心。2.剔除异常值:若数据的收集与录入是正确的,但是仅有极个别的异常值,而且经过调研人员的探讨,在所要研究的群体中也非常少见,剔除数据不会对最终的研究结果有很大的影响,那么可以剔除此数据。注意,在最终转载 2022-03-05 22:14:52 · 4118 阅读 · 0 评论 -
GBDT(MART) 迭代决策树入门教程 | 简介(转)
这些天在看XGBoost,为了搞懂XGBoost看了不少资料,为了理解也看了ADAboost、GBDT、LightGBM、CATBoost等,今天看到一篇深入浅出讲解的文章,记录备忘一下 GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力(generalization)转载 2022-01-29 11:31:16 · 252 阅读 · 0 评论 -
动量梯度下降法(gradient descent with momentum)
简介动量梯度下降法是对梯度下降法的改良版本,通常来说优化效果好于梯度下降法。对梯度下降法不熟悉的可以参考梯度下降法,理解梯度下降法是理解动量梯度下降法的前提,除此之外要搞懂动量梯度下降法需要知道原始方法在实际应用中的不足之处,动量梯度下降法怎样改善了原来方法的不足以及其具体的实现算法。依次从以下几个方面进行说明:小批量梯度下降法(mini-batch gradient descent)指数加权平均(exponential weight averages)动量梯度下降法(gradient desce转载 2021-12-01 16:27:14 · 476 阅读 · 0 评论 -
各领域公开数据集下载
各领域公开数据集下载上网找到了个数据集的整理,不用再搜就自己转过来。原文地址:https://zhuanlan.zhihu.com/p/25138563金融美国劳工部统计局官方发布数据房地产公司 Zillow 公开美国房地产历史数据沪深股票除权除息、配股增发全量数据,截止 2016.12.31上证主板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,126...转载 2019-07-06 16:44:31 · 1219 阅读 · 0 评论 -
在Python中使用XGBoost
https://blog.youkuaiyun.com/FontThrone/article/details/85046810转载 2019-08-04 21:46:45 · 189 阅读 · 0 评论 -
对“偏导数”和“梯度”最形象直观的解释
偏导数和梯度是数学中的重要概念,贯穿于许多自然学科,本篇就用形象的图形来解释它们的原理图中是有X Y 变量 和有X Y变量组成的函数Z=f(X,Y)图形我们保持X值不变,仅改变Y值得情况下如图Z值仅随Y值在变化,所以Z的变化量除以Y的变换量就是该线的斜率将X换个固定值,同样Z的变化量除以Y的变换量就是该线的斜率,只是斜率的大小不一样Z的增量除以Y的增量,我们...转载 2019-08-04 22:34:08 · 622 阅读 · 0 评论 -
特征工程系列:特征筛选的原理与实现(上)
0x00 前言数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。那特征工程是什么?特征工程是利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过程。特征工程又包含了Feature Selection(特征选择)、Feature Extractio...转载 2019-07-27 11:45:09 · 417 阅读 · 0 评论 -
特征工程系列:特征筛选的原理与实现(下)
0x00 前言我们在《特征工程系列:特征筛选的原理与实现(上)》中介绍了特征选择的分类,并详细介绍了过滤式特征筛选的原理与实现。本篇继续介绍封装式和嵌入式特征筛选的原理与实现。0x01 特征选择实现方法三:线性模型与正则化1.主要思想当所有特征在相同尺度上时,最重要的特征应该在模型中具有最高系数,而与输出变量不相关的特征应该具有接近零的系数值。即使使用简单的线性回归模型,当数据不是...转载 2019-07-27 11:46:12 · 487 阅读 · 0 评论 -
一元线性回归的公式推导
https://blog.youkuaiyun.com/wx_blue_pig/article/details/79779500转载记录转载 2019-07-02 02:11:45 · 1257 阅读 · 0 评论 -
最大似然估计(Maximum likelihood estimation)(通过例子理解)
之前看书上的一直不理解到底什么是似然,最后还是查了好几篇文章后才明白,现在我来总结一下吧,要想看懂最大似然估计,首先我们要理解什么是似然,不然对我来说不理解似然,我就一直在困惑最大似然估计到底要求的是个什么东西,而那个未知数θ到底是个什么东西TT原博主写的太好了,这里 我就全盘奉上~似然与概率在统计学中,似然函数(likelihood function,通常简写为likelihood,...转载 2019-05-27 00:26:34 · 421 阅读 · 0 评论 -
数据标准化
目前数据标准化方法有多种,归结起来可以分为直线型方法(如极值法、标准差法)、折线型方法(如三折线法)、曲线型方法(如半正态性分布)。不同的标准化方法,对系统的评价结果会产生不同的影响,然而不幸的是,在数据标准化方法的选择上,还没有通用的法则可以遵循。常见的方法有:min-max标准化(Min-max normalization),log函数转换,atan函数转换,z-score标准化(z...转载 2019-05-25 18:39:45 · 853 阅读 · 0 评论 -
OneHotEncoder独热编码和 LabelEncoder标签编码
学习sklearn和kagggle时遇到的问题,什么是独热编码?为什么要用独热编码?什么情况下可以用独热编码?以及和其他几种编码方式的区别。首先了解机器学习中的特征类别:连续型特征和离散型特征 拿到获取的原始特征,必须对每一特征分别进行归一化,比如,特征A的取值范围是[-1000,1000],特征B的取值范围是[-1,1].如果使用logistic回归,w1*x1+w...转载 2019-05-25 19:38:07 · 212 阅读 · 0 评论 -
二值化
Binarization是一个将数值特征转换为二值特征的处理过程。threshold参数表示决定二值化的阈值。 值大于阈值的特征二值化为1,否则二值化为0原创 2019-05-25 19:45:44 · 230 阅读 · 0 评论 -
数据分箱
1 分箱简介数据分箱(也称为离散分箱或分段)是一种数据预处理技术,用于减少次要观察误差的影响,是一种将多个连续值分组为较少数量的“分箱”的方法。例如,例如我们有一组关于人年龄的数据,如下图所示:初始数据现在我们希望将他们的年龄分组到更少的间隔中,可以通过设置一些条件来实现:分箱后的数据分箱的数据不一定必须是数字,它们可以是任何类型的值,如“狗”,“...转载 2019-05-25 19:51:53 · 2167 阅读 · 0 评论 -
卡方检验
结合日常生活的例子,了解什么是卡方检验Yan文怡关注3.02018.02.07 09:45*字数 1918阅读 50991评论 44喜欢 106赞赏 7卡方检验,统计学的方法,现在机器学习看变量的时候也会用到。很多不知道的人,一听到这个名词,会马上联想到,啊?还要拿张卡来检验吗?其实卡方检验是英文Chi-Square Test 的谐音。在大数据运营场景中,通常用在...转载 2019-05-25 20:20:32 · 2102 阅读 · 0 评论 -
孤立森林(Isolation Forest)
https://blog.youkuaiyun.com/extremebingo/article/details/80108247转载 2019-05-26 21:48:18 · 645 阅读 · 0 评论 -
大规模文本分类网络TextCNN介绍
https://blog.youkuaiyun.com/u012762419/article/details/79561441转载 2019-05-26 21:58:47 · 139 阅读 · 0 评论 -
一组图诠释CNN及RNN的区别
https://blog.youkuaiyun.com/buptgshengod/article/details/78362575转载 2019-05-26 22:02:47 · 159 阅读 · 0 评论 -
CNN DNN RNN
CNN卷积神经网络(Convolutional Neural Networks,CNN)DNN深度神经网络(Deep Neural Networks, 以下简称DNN)RNN循环神经网络,Recurrent Neural Network原创 2019-05-26 22:11:44 · 264 阅读 · 0 评论 -
线性回归数学推导
线性回归的公式线性回归的数学推导主要涉及到以下几个知识点。1. 利用矩阵的知识对线性公式进行整合2. 误差项的分析3. 似然函数的理解4. 矩阵求偏导5. 线性回归的最终求解我们先来看下这个图姓名 工资(元) 房屋面积(平方米) 可贷款金额(元) 张三 6000 58 30000 李四 9000 77 ...转载 2019-05-26 22:47:19 · 286 阅读 · 0 评论 -
分层抽样法
分层抽样的具体程序是:把总体各单位分成两个或两个以上的相互独立的完全的组(如男性和女性),从两个或两个以上的组中进行简单随机抽样,样本相互独立。总体各单位按主要标志加以分组,分组的标志与关心的总体特征相关。例如,正在进行有关啤酒品牌知名度方面的调查,初步判别,在啤酒方面男性的知识与和女性的不同,那么性别应是划分层次的适当标准。如果不以这种方式进行分层抽样,分层抽样就得不到什么效果,花再多时间、精力...转载 2019-05-24 23:13:53 · 7390 阅读 · 0 评论