自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

邝邝的数据分析之路

总结数据分析工作经验和学习之路

  • 博客(5)
  • 收藏
  • 关注

原创 R语言常见报错及解决方法

在使用R的时候,偶尔也会遇到一些糟心的报错,本文把运行过程中遇到的一些报错和解决方案进行总结归纳。1、无法连接RPostgreSQL包连接到PG库报错内容:显示连接超时解决方案:先删除RODBC和RJDBC这两个包,然后重启R即可,因为这两个包与RPostgreSQL包有冲突2、无法安装包报错内容:在R中安装几个package,可是每

2017-11-29 18:24:05 14752

转载 Spark+Spark streaming+kafka简介和总结

接上文《Hadoop生态系统》,对Spark的相关内容进行总结。1、Hadoop和Spark的关系Spark是为了跟Hadoop配合而开发出来的,不是为了取代Hadoop,专门用于大数据量下的迭代式计算。Spark运算比Hadoop的MapReduce框架快的原因是因为Hadoop在一次MapReduce运算之后,会将数据的运算结果从内存写入到磁盘中,第二次MapReduce运

2017-11-27 17:03:34 6134 3

转载 Hadoop生态系统

在从事数据分析过程中,经常接触一些大数据平台的概念,但由于不是计算机专业背景,刚开始看这些专业名词的时候还是比较迷糊。最近看了一些关于hadoop生态系统的材料,本文是对这些文章材料的总结,希望可以形成对于该领域的知识体系。1、系统架构图hadoop 1.0:hadoop 2.0:2、HDFS,分布式文件系统HDFS是hadoop体系

2017-11-26 19:29:26 593

原创 树模型系列之六:基于R语言的xgboost+LR实现方法及案例

本文主要介绍如何利用Xgboost+LR构建分类模型,基于真实案例用R语言来实现该算法。一、算法原理Xgboost可以用来构造新特征变量,而LR则可以把原始特征和新特征集合起来构造模型,并计算各特征的显著性和权重系数。二、利用R构造Xgboost模型原始数据,数据框格式,8个自变量,1个因变量,训练集共200万+数据,测试集90万+数据。

2017-11-24 16:24:16 14827 4

原创 树模型系列之二:集成算法bagging和boosting的区别

最近在研究树模型的时候,发现目前这类模型应用范围比较广,优化算法也层出不穷,因此希望通过几篇系列文章,能够加深对树模型的认识。bagging和boosting的区别

2017-11-24 14:19:34 1758 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除