- 博客(18)
- 收藏
- 关注
原创 Seaborn绘制热力图
Seaborn绘制热力图Seaborn.heatmap (data, vmin=None, vmax=None, camp=None,center=None, robust=False, annot=None, fmt=’.2g’, annot_kws=None, linewidths=0, linecolor=’white’, cbar=True, cbar_kws=None, cbar...
2019-01-17 10:32:14
17267
1
转载 透视表(pivotTab)和交叉表(crossTab)
Pandas:透视表(pivotTab)和交叉表(crossTab)一、透视表(pivotTab)透视表就是将指定原有DataFrame的列分别作为行索引和列索引,然后对指定的列应用聚集函数(默认情况下式mean函数)。 import numpy as npimport pandas as pdfrom pandas import Series,DataFramedf =...
2019-01-10 10:56:49
1260
转载 sklearn中的k折交叉验证
K折交叉验证: sklearn.model_selection.KFold(n_splits=3,shuffle=False,random_state=None)思路:将训练/测试数据划分n_splits个互斥子集,每次用其中一个子集当作验证集,剩下的n_splits-1个作为训练集,进行n_splits次训练和测试,得到n_splits个结果注意:对于不能均等分的数据集,前n_sampl...
2019-01-08 16:32:48
6911
1
转载 sklearn 中的 Pipeline 机制
sklearn 中的 Pipeline 机制from sklearn.pipeline import Pipeline管道机制实现了对全部步骤的流式化封装和管理(streaming workflows with pipelines)。注意:管道机制更像是编程技巧的创新,而非算法的创新。 接下来我们以一个具体的例子来演示sklearn库中强大的Pipeline用法:1 加载数...
2019-01-08 14:54:08
421
原创 kaggle-房价预测案例
此案例为kaggle上面的房价预测案例https://www.kaggle.com/c/house-prices-advanced-regression-techniques具体代码如下import numpy as npimport pandas as pdimport matplotlib.pyplot as plt#-------------------Step1:读取...
2019-01-06 22:15:42
1297
转载 Kaggle_Titanic生存预测 -- 详细流程吐血梳理
转载一直想在Kaggle上参加一次比赛,奈何被各种事情所拖累。为了熟悉一下比赛的流程和对数据建模有个较为直观的认识,断断续续用一段时间做了Kaggle上的入门比赛:Titanic: Machine Learning from Disaster。总的来说收获还算是挺大的吧。本来想的是只简单的做一下,在整个进行的过程中发现有很多好的Kernels以及数据分析的流程和方法,但是却鲜有比较清晰直观...
2019-01-05 19:51:06
413
转载 kaggle比赛集成指南
转自介绍集成模型是一种能在各种的机器学习任务上提高准确率的强有力技术。在这篇文章中,我会分享我在Kaggle比赛中的集成方法。在第一部分中,我们会讨论从提交文件中建立集成。主要包括:投票集成 平均 排名平均第二部分我们会讨论 通过 generalization/blending等方法来创建集成。我会在后续回答为什么集成能够减少泛化误差。最后我会展示不同的集成方法,包括它们...
2019-01-05 19:21:42
380
原创 pandas学习详细教程
pandas基础篇我们打算从以下几个方面进行代码练习:** 创建Series** Series基本操作** 创建DataFrame** DataFrame基本操作** DataFrame文件操作** Series,DataFrame和多索引** 透视表** 数据清洗** 数据预处理** 可视化创建 Series 数据类型:1)从列表创建 S...
2019-01-04 21:56:01
1176
原创 pd.get_dummies()与pd.factorize()详解
pandas.get_dummies(将类别变量转换为one-hot编码,使用pandas方法实现,相当于sklearn的one-hot编码) 离散特征的编码分为两种情况:1、离散特征的取值之间没有大小的意义,比如color:[red,blue],那么就使用one-hot编码2、离散特征的取值有大小的意义,比如size:[X,XL,XXL],那么就使用数值的映射{X:1,XL:...
2019-01-04 21:24:04
5287
1
原创 python数据处理
#-------------------------python数据分析特征预处理代码示例----------------------------import pandas as pdimport scipy.stats as ssimport numpy as npfrom sklearn.feature_selection import SelectKBest,RFE,Select...
2019-01-03 20:53:54
473
原创 Python数据处理实例
使用python进行数据处理的实例(数据为某公司HR部门关于员工信息的部分摘录,kaggle上面的一次赛题)https://www.kaggle.com/c/kfru-dbm-hr-analytics该实例是根据其他所给属性预测员工是否会离职,代码实现如下所示import pandas as pdfrom sklearn.preprocessing import MinMaxSc...
2019-01-02 19:05:28
10509
9
原创 NLP练习
import numpy as npimport pandas as pdfrom sklearn.ensemble import RandomForestRegressor,BaggingRegressorfrom sklearn.model_selection import cross_val_scorefrom nltk.stem.snowball import SnowballS...
2018-12-27 15:54:36
450
原创 sklearn实现决策树
决策树 决策树是一种用于分类和回归的非参数监督学习方法。目标是通过学习从数据特征推断出的简单决策规则,创建一个预测目标变量值的模型。 决策树的优点: 1)易于理解和解释。树木可以被可视化; 2)只需要很少的数据准备,数据可以不规范化,但是需要注意的是,决策树不能有丢失的值; 3)使用该树的花费是用于训练树的数...
2018-12-22 12:15:18
6230
1
原创 Sklearn实现朴素贝叶斯
#------------------------------Sklearn 实现朴素贝叶斯-----------------------# 在scikit-learn中,一共有3个朴素贝叶斯的分类算法类。# 分别是GaussianNB,MultinomialNB和BernoulliNB。# 其中GaussianNB就是先验为高斯分布的朴素贝叶斯,# MultinomialNB就是先验...
2018-12-21 11:12:34
663
原创 Sklearn实现knn
#----------------------------------Sklearn实现Knn------------------------------# KNeighborsClassifier(n_neighbors=5, weights=’uniform’,# algorithm=’auto’, leaf_size=30, p=2, metric=’minkowski’,# met...
2018-12-21 09:59:10
1134
原创 Sklearn中的线性回归
import numpy as npimport matplotlib.pyplot as pltfrom sklearn.linear_model import LinearRegression#假设样本数据集如下;data=[ [0.067732,3.176513],[0.427810,3.816464],[0.995731,4.550095],[0.738336,4.2...
2018-12-20 21:44:28
687
原创 LDA主题模型
LDA文档主题生成模型LDA是一种文档主题生成模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。LDA是一种非监督机器学习技术,可以用来识别大规模文档集或语料库中潜藏的主题信息。它采用了词袋的方法,这种方法将每一篇文...
2018-12-20 19:08:48
702
原创 数据分析流程
数据分析流程数据获取 -> 探索分析与可视化 -> 数据预处理 -> 数据分析与建模 -> 模型评估数据分析就是利用统计分析方法,来提取有用的信息并进行总结与概括的过程。数据获取的手段可以分为以下四种: 数据仓库 将所有业务数据经汇总处理,构成数据仓库(DW)它是全部事实的记录 它是部分维度与数据的整理数据库VS数据仓库:数据库面向业务存储...
2018-12-19 20:08:45
548
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅