
机器学习
文章平均质量分 64
htbeker
毕业论文、课程设计、数据分析、数据挖掘、机器学习培训。
展开
-
你们都是怎么学 Python 的?
无意中听我们院长大人说:Python是一门神奇的语言,在此之前我已经对C/C++/Java等几门语言有了一定得了解和掌握,并做过一些小项目。学习Python大致可以分为以下几个阶段:1.刚上手的时候肯定是先过一遍Python最基本的知识,比如说:变量、数据结构、语法等,基础过的很快,基本上1~2周时间就能过完了,我当时是在这儿看的基础:Python 简介 | 菜鸟教程如果你想简单点,我把我自己的学习经验总结成了一本Python以及爬虫电子书,保证非常的通俗易懂帮助你学会Python,目前这本原创 2021-03-15 20:18:11 · 355 阅读 · 0 评论 -
多任务学习(Multi-task)keras实现
多目标任务存在很多场景中,如多目标检测,推荐系统中的多任务学习。多任务学习(Multi-task learning)简介多任务学习(Multi-task learning)是迁移学习(Transfer Learning)的一种,而迁移学习指的是将从源领域的知识(source domin)学到的知识用于目标领域(target domin),提升目标领域的学习效果。 而多任务学习也是希望模型同时做多个任务时,能将其他任务学到的知识,用于目标任务中,从而提升目标任务效果。如果我们换个角度理解,其实多任原创 2021-03-15 19:20:38 · 3964 阅读 · 2 评论 -
tensorflow之tf.where实例解析
tf.where( condition, x=None, y=None, name=None)a,b为和tensor相同维度的tensor,将tensor中的true位置元素替换为a中对应位置元素,false的替换为b中对应位置元素。import tensorflow as tfimport numpy as npsess=tf.Session() a=np.array([[1,0,0],[0,1,1]])a1=np.array([[3,2,3],[4,5,6]]) pr.原创 2021-01-08 15:08:19 · 406 阅读 · 0 评论 -
集成学习之stacking详解
什么是集成学习方法?集成学习有以GBDT为代表的boosting方法和以RF为代表的Bagging方法,今天我们介绍另外一种stacking方法。stacking在kaggle中大为光火,很多高分选手都用了此方法,在工业界应用不详,还请知道的大神详解。Stacking流程在第一阶段,将训练数据均匀地分成5份,使用“留一法”训练5个逻辑回归模型,用这5个模型分别去预测剩下的一份训练...原创 2018-12-30 21:36:27 · 7768 阅读 · 0 评论 -
使用pyspark ml 构建logisticRegression模型
数据量上来了不得不祭出spark,先用逻辑回归试试水。原创 2019-01-06 22:47:39 · 2496 阅读 · 0 评论 -
tensorflow搭建简单线性模型及神经网络
利用tensorflow搭建简单线性模型及神经网络生成线性模型原创 2019-01-23 22:12:16 · 462 阅读 · 0 评论 -
构建风控评分卡模型介绍(WOE/KS/ROC)
什么是评分卡(信贷场景中)以分数的形式来衡量风险几率的一种手段 对未来一段时间内违约/逾期/失联概率的预测 通常评分越高越安全 根据使用场景分为反欺诈评分卡、申请评分卡、行为评分卡、催收评分卡为什么要开发评分卡风险控制的一个环节,根据已有数据提供逾期概率指标参考评分卡的特性稳定性 预测能力 等价于逾期概率评分卡开发的常用模型逻辑回归 决策树基于逻辑回归的评分卡理...原创 2018-03-26 15:52:03 · 60162 阅读 · 3 评论 -
XGBoost原理及目标函数推导详解
前言 XGBoost(eXtreme Gradient Boosting)全名叫极端梯度提升,XGBoost是集成学习方法的王牌,在Kaggle及工业界都有广泛的应用并取得了较好的成绩,本文较详细的介绍了XGBoost的算法原理及目标函数公式推导。一、XGBoost原理 XGBoost是boosting算法的一种,是以决策树为基础的一种梯度提升算法。通过多轮迭代,每轮迭...原创 2019-06-12 17:02:34 · 13087 阅读 · 4 评论 -
feature_selector
今天介绍一个特征选择的包:feature_selector,它使用了5种方法进行特征选择,1、删除缺失值过高变量;2、删除共线性特征;3、删除唯一值特征;4、删除重要度为零的特征;5、删除低重要度特征,下面进行介绍。...原创 2018-10-21 15:20:04 · 3794 阅读 · 0 评论 -
信用申请评分卡建模
本文基于kaggle竞赛数据GiveMeSameCredit构建信用申请评分卡即A卡。原创 2018-07-06 09:54:54 · 4409 阅读 · 2 评论 -
逻辑回归算法实例
关注微信公众号“H君聊人生”一起成长:H君聊人生原创 2018-03-17 17:57:49 · 2367 阅读 · 0 评论 -
使用sklearn机器学习方法预测泰坦尼克号生存率
数据分析一般有以下步骤: 1、了解项目基本情况、提出问题;2、理解数据;3、数据清洗、准备;4、建模、训练; 5、模型的评估、预测;6、按项目要求收集结果数据;下面我们就对泰坦尼克号沉船事件逐步进行分析。一、了解项目基本情况、提出问题。 泰坦尼克号沉船事件是世界上一次著名的海难,电影《泰坦尼克号》的成功也让这次事件得到了更广泛的传播,其具体经过不再赘述。在...原创 2018-03-18 23:38:11 · 2476 阅读 · 0 评论 -
使用带AdaBoost的决策树分类器预测房价
关注微信公众号“H君聊人生”一起成长:H君聊人生原创 2018-03-26 00:42:55 · 679 阅读 · 0 评论 -
使用sklearn做单机特征工程
转自http://www.cnblogs.com/jasonfreak/p/5448385.html目录1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换 2.6 回顾3 特征选择 3.1 Filt...转载 2018-04-09 10:06:26 · 634 阅读 · 0 评论 -
使用sklearn中roc曲线计算AUC值
ROC曲线指受试者工作特征曲线/接收器操作特性(receiver operating characteristic,ROC)曲线,是反映灵敏性和特效性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性。ROC曲线是根据一系列不同的二分类方式(分界值或决定阈),以真正例率(也就是灵敏度)(True Positive Ra...原创 2018-04-16 00:06:26 · 13171 阅读 · 0 评论 -
sklearn.preprocessing用法总结
通常使用sklearn中的preproccessing库来进行数据预处理。原创 2018-04-24 23:07:34 · 2029 阅读 · 0 评论 -
在调用sklearn时出现 Unknown label type: ‘unknown‘
在sklearn 模型训练是出现如下报错:‘ValueError: Unknown label type: ‘unknown’’该怎么解决?以GBDT为例:train_y后加上astype(‘int’)即可gbdt.fit(train_x,train_y.astype(‘int’))...原创 2018-05-17 12:02:40 · 29680 阅读 · 9 评论 -
特征选择(feature_selection)
特征选择是特征工程重要的一环,sklearn能帮我们实现多种特征选择的方法,现在来做一个总结。首先导入原始数据,建模并计算KS,以KS作为特征选择后模型的效果对比。 ...原创 2018-06-29 23:39:05 · 1983 阅读 · 0 评论 -
K-Means聚类算法的原理及实现【转】
【转】http://www.aboutyun.com/thread-18178-1-1.html问题导读:1、如何理解K-Means算法?2、如何寻找K值及初始质心?3、如何应用K-Means算法处理数据?K-Means是聚类算法中的一种,其中K表示类别数,Means表示均值。顾名思义K-Means是一种通过均值对数据点进行聚类的算法。K-Means算法通过预先设定的K值及每个类别的初始质心对相似...转载 2018-03-01 20:14:11 · 380 阅读 · 0 评论