大数据处理
文章平均质量分 90
明天去哪
博观而约取,厚积而薄发.每天坚持写代码
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hadoop入门
安装linux环境jdk(hadoop使用java写的)配置hadoop下载hadoop, wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz vim conf/hadoop-env.sh row 9改为: export JAVA_HOME=/usr/lib/jvm/ja原创 2016-05-18 22:42:44 · 388 阅读 · 0 评论 -
R语言预备及安装
简介R可以完成数据分析设计的几乎所有步骤 数据获取数据清理数据分析结果报告发布结果竞赛网站:https://www.kaggle.com 发布结果的平台: http://rpubs.com/数据分析探索性数据分析 了解数据作图统计推断(基于数据得出正式结论的过程) 原因 数据存在不确定性(噪音)可以给出结论+结论出错的概率回归分析(主要针对线性回归分析) 通过模型原创 2016-05-19 00:17:17 · 645 阅读 · 0 评论 -
R语言数据结构
对象的基本类型字符(character) x <- “sjming”数值(numeric;real numbers) x <- 3.14整数(integer) x <- 2L复数(complex) x <- 1+2i逻辑(logical)(TF必须大写) x <- TRUE常用方法 查看对象类型:class(x)大小写敏感对象的属性名称维度类型长度向量创建#原创 2016-05-19 10:08:37 · 613 阅读 · 0 评论 -
R语言操纵数据
构造子集基本方法 [], 提取一个或多个类型相同的元素[[]], 从列表或数据框中提取元素$, 按名字从列表或数据框中提取元素矩阵的子集x <- matrix(1:6, nrow=2, ncol=3)x[1,2] # [1] 3x[1,] # [1] 1 3 5x[, 1] # [1] 1 2x[2, c(1, 3)]class(x[1,2]) # "integer"x[1,原创 2016-05-19 13:49:55 · 502 阅读 · 0 评论 -
R语言之数据可视化
完整的数据分析流程 定义研究问题,定义理想数据集,确定能够获取什么数据,获取数据,清理数据探索性分析,统计分析/建模(机器学习)等解释/交流结果(数据可视化),挑战结果,书写报告(Reproducible原则) 假设驱动 数据驱动 了解数据特征数据基础观测,变量,数据矩阵 行叫做一次观测,列叫做一个变量值变量的类型 数值(连续, 离散)分类(无序, 有序)变量间的原创 2016-05-21 09:50:17 · 1837 阅读 · 0 评论
分享