
数据挖掘
文章平均质量分 96
沫嫣子
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【天池入门笔记】【算法入门】sklearn入门系列二:聚类算法与特征选择
聚类算法主要有三种:层次聚类,划分聚类(sklearn),密度聚类(DBSCAN)1、聚类#层次聚类from sklearn.cluster import Agglomerative Clusteringimport pandas as pdfrom sklearn.preprocessing import StandardScalerdata = pd.read_csv('da...原创 2018-10-23 14:14:10 · 2453 阅读 · 0 评论 -
一些数据集
科赛 https://www.kesci.com/home/datasetkaggle数据集天池融360天机kagglehttps://www.kaggle.com/competitions?sortBy=grouped&group=general&page=1&pageSize=20天池https://tianchi.aliyun.com/compe...原创 2019-02-22 15:54:57 · 386 阅读 · 1 评论 -
【Scikit-Learn 中文文档】模型评估: 量化预测的质量 - 模型选择和评估 - 用户指南 | ApacheCN
中文文档: http://sklearn.apachecn.org/cn/stable/modules/model_evaluation.html英文文档: http://sklearn.apachecn.org/en/stable/modules/model_evaluation.html 官方文档: http://scikit-learn.org/st...转载 2019-01-26 11:48:56 · 459 阅读 · 0 评论 -
收藏一些博客
https://www.cnblogs.com/aiyuxi/p/6310022.html决策树原理及剪枝https://www.cnblogs.com/csyuan/p/6535366.html原创 2019-01-26 13:55:28 · 123 阅读 · 0 评论 -
私密文章不见了,在哪查看
https://mp.youkuaiyun.com/postlist原创 2019-01-26 14:26:45 · 1602 阅读 · 0 评论 -
Kaggle_Titanic生存预测 -- 详细流程吐血梳理
版权声明:本文为博主原创文章,未经允许不得转载。 https://blog.youkuaiyun.com/Koala_Tree/article/details/78725881作者: 大树先生 博客: http://blog.youkuaiyun.com/koala_tree 知乎:https://www.zhihu.com/people/dashuxiansheng GitHub:https://git...转载 2019-01-26 16:02:36 · 472 阅读 · 0 评论 -
XGBoost和LightGBM的参数以及调参
一、XGBoost参数解释XGBoost的参数一共分为三类:通用参数:宏观函数控制。 Booster参数:控制每一步的booster(tree/regression)。booster参数一般可以调控模型的效果和计算代价。我们所说的调参,很这是大程度上都是在调整booster参数。 学习目标参数:控制训练目标的表现。我们对于问题的划分主要体现在学习目标参数上。比如我们要做分类还是回归,做...转载 2019-01-31 14:49:21 · 1165 阅读 · 0 评论 -
python刷剑指offer
https://www.yiibai.com/python/py_data_structure/python_linked_lists.html原创 2019-01-31 15:11:31 · 206 阅读 · 0 评论 -
Kesci“魔镜杯”风控算法大赛复赛解决方案
决赛答辩第4,获得铜奖代码地址:https://github.com/wepe/PPD_RiskControlCompetition转载 2019-01-27 17:22:13 · 426 阅读 · 0 评论 -
随机森林算法学习(RandomForest)
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.youkuaiyun.com/qq547276542/article/details/78304454随机森林算法学习最近在做kaggle的时候,发现随机森林这个算法在分类问题上效果十分的好,大多数情况下效果远要比svm,log回归,knn等算法效果好。因此想琢磨琢磨这个算法的原理。要学随机森林,首先先简单介绍一下...转载 2019-01-22 15:14:07 · 306 阅读 · 0 评论 -
对机器学习与数据竞赛的一些总结
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.youkuaiyun.com/q383700092/article/details/53842160应导师要求,给新来的师弟师妹讲讲机器学习的一些东西,方便有个大概的结构,本人不才,略写点自己的看法和总结,有错误之处请多多指教。回顾比赛最近半年参加的比赛成绩:1. 阿里音乐流行趋势预测大赛 2016.5.1...转载 2019-02-15 10:29:09 · 212 阅读 · 0 评论 -
数据竞赛入门资料与参赛经验分享
前言本篇博文主要根据博主自身的参赛学习经历,分享一些关于机器学习和数据挖掘比赛的资料与经验。因为自己在学习过程中,也多亏大佬前辈们的指导和分享,才慢慢学会一些技能,所以,希望大家一起学习交流,一起进步。博主(ID:16huakai)这半年来的参赛经历如下(按照时间先后):1、2018 华为软件精英挑战赛 武长赛区三等奖2、2018 DF CCF 招商银行“奇点计划”数据竞赛 5...转载 2019-02-15 10:31:07 · 445 阅读 · 0 评论 -
详解ROC/AUC计算过程
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.youkuaiyun.com/ybdesire/article/details/51999995ROC和AUC定义ROC全称是“受试者工作特征”(Receiver Operating Characteristic)。ROC曲线的面积就是AUC(Area Under the Curve)。AUC用于衡量“二分类问题”机器...转载 2019-01-20 22:18:08 · 491 阅读 · 0 评论 -
原 Sklearn中的StratifiedKFold与stacking模型的融合方法
前言:由于在学习泰坦尼克预测的案例时,借用到了stacking的模型融合的方法,其中对StratifiedKFold的方法感到不是很理解,于是网上搜索了一些教程,特地记录如下,同时在文尾也会附上stacking的具体代码作为补充。StratifiedKFold用法类似Kfold,但是他是分层采样,确保训练集,测试集中各类别样本的比例与原始数据集中相同。from sklearn.model_se...转载 2019-01-20 20:37:46 · 447 阅读 · 0 评论 -
【天池入门】【算法入门】sklearn入门系列三:数据预处理、模型评估、模型融合
一、预处理1、数据概览#数据概览df.info()df.describe()df.head() #查看数据df.dtypes() #查看数据类型df.shape() #查看数据行列数df['user_age_level'].hist() #查看数值分布df.isnull().sum() #查看每一列的缺失值情况df['n_n...原创 2018-10-23 15:35:24 · 547 阅读 · 0 评论 -
ensemble基本代码
import pandas as pdfrom datetime import datetimefrom cmath import logfrom sklearn.metrics import mean_squared_errorfrom sklearn.model_selection import train_test_splitfrom sklearn.model_select...原创 2018-11-09 20:51:38 · 1005 阅读 · 1 评论 -
python中的get_dummies实战
版权声明:欢迎去我的新家https://www.jianshu.com/u/906a78709f1d https://blog.youkuaiyun.com/dongyanwen6036/article/details/78555163一、实践 离散特征的编码分为两种情况:1、离散特征的取值之间没有大小的意义,比如color:[red,blue],那么就使用one-hot编码2、离散特...转载 2018-11-10 21:22:47 · 1621 阅读 · 0 评论 -
python weekday()函数
#by 2018.11.11 星期日import datetimed=datetime.datetime(2018,11,11)t=d.weekday()print(t)#out:6import datetimed=datetime.datetime(2018,11,11)t=d.weekday()+1print(t)#out:7import datetimed=...原创 2018-11-11 20:28:51 · 8768 阅读 · 0 评论 -
【机器学习】各种损失函数
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.youkuaiyun.com/qq547276542/article/details/77980042常见的损失函数1.0-1损失函数(0-1 loss function)L(Y,f(X))={1,Y≠f(X)0,Y=f(X)L(Y,f(X))={1,Y≠f(X)0,Y=f(X) 可以看出,该损失函数的意义就是,...转载 2018-11-16 17:20:08 · 487 阅读 · 0 评论 -
【机器学习】正则化的线性回归 —— 岭回归与Lasso回归
原文链接:https://www.cnblogs.com/Belter/p/8536939.html 注:正则化是用来防止过拟合的方法。在最开始学习机器学习的课程时,只是觉得这个方法就像某种魔法一样非常神奇的改变了模型的参数。但是一直也无法对其基本原理有一个透彻、直观的理解。直到最近再次接触到这个概念,经过一番苦思冥想后终于有了我自己的理解。 0. 正则化(Regulariz...转载 2018-11-16 21:54:25 · 643 阅读 · 0 评论 -
【天池学习】模型融合概述
在比赛中提高成绩主要有3个地方特征工程 调参 模型融合1. Voting模型融合其实也没有想象的那么高大上,从最简单的Voting说起,这也可以说是一种模型融合。假设对于一个二分类问题,有3个基础模型,那么就采取投票制的方法,投票多者确定为最终的分类。2.Averaging对于回归问题,一个简单直接的思路是取平均。稍稍改进的方法是进行加权平均。权值可以用排序的方法确定,举个例...转载 2018-11-18 16:40:03 · 1027 阅读 · 0 评论 -
【机器学习】特征选择方法
from:https://www.zhihu.com/question/28641663/answer/110165221 目录1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据...转载 2018-11-23 11:28:45 · 546 阅读 · 0 评论 -
【数据挖掘】使用sklearn优雅地进行数据挖掘
使用sklearn优雅地进行数据挖掘from:http://www.cnblogs.com/jasonfreak/p/5448462.html目录1 使用sklearn进行数据挖掘 1.1 数据挖掘的步骤 1.2 数据初貌 1.3 关键技术2 并行处理 2.1 整体并行处理 2.2 部分并行处理3 流水线处理4 自动化调参5 持久化6 回顾7 总结8 ...转载 2018-11-23 11:53:54 · 219 阅读 · 0 评论 -
线性判别分析(LDA)、主成分分析(PCA)
from:https://www.cnblogs.com/LeftNotEasy/archive/2011/01/08/lda-and-pca-machine-learning.html 前言: 第二篇的文章中谈到,和部门老大一宁出去outing的时候,他给了我相当多的机器学习的建议,里面涉及到很多的算法的意义、学习方法等等。一宁上次给我提到,如果学习分类算法,最好从线性的入手,...转载 2018-11-23 13:44:42 · 335 阅读 · 0 评论 -
调参
https://segmentfault.com/a/1190000014040317原创 2019-01-17 13:29:04 · 182 阅读 · 0 评论 -
Python 内置函数sorted()在高级用法
Python 内置函数sorted()在高级用法 对于Python内置函数sorted(),先拿来跟list(列表)中的成员函数list.sort()进行下对比。在本质上,list的排序和内建函数sorted的排序是差不多的,连参数都基本上是一样的。 主要的区别在于,list.sort()是对已经存在的列表进行操作,进而可以改变进行操作的列表。而内建函数sorted返回的是一个新的list...转载 2019-01-20 16:39:07 · 165 阅读 · 0 评论 -
机器学习-训练模型的保存与恢复(sklearn)
在做模型训练的时候,尤其是在训练集上做交叉验证,通常想要将模型保存下来,然后放到独立的测试集上测试,下面介绍的是Python中训练模型的保存和再使用。scikit-learn已经有了模型持久化的操作,导入joblib即可from sklearn.externals import joblib1模型保存>>> os.chdir("workspace/model_sav...转载 2019-01-20 19:51:32 · 787 阅读 · 1 评论 -
Hadoop介绍-1.基本原理
了解大数据首先,搞清楚hadoop在处理大数据的定位在哪里什么是大数据?为什么要处理大数据?数据量大(Volume) 数据类别复杂(Variety) 数据处理速度快(Velocity) 数据真实性高(Veracity) 合起来被称为4V。处理大数据是为了挖掘数据中的隐含价值如何处理大数据?集中式计算VS分布式计算集中式计算:通过不断增加处理器的个数来增强耽搁计算机的计算...转载 2019-02-23 14:36:13 · 300 阅读 · 0 评论