
大数据
文章平均质量分 83
我叫金角大王
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
sqoop详解
目前sqoop分为sqoop1和sqoop2,sqoop最终稳定版本为1.4.6,sqoop2最新版本为1.9.7。两个版本的差异比较大。本文章主要讲解sqoop1.4.6一、前置需求需要在linux上安装jdk和hadoop二、安装sqoop1.4.6下载地址:http://sqoop.apache.org文档地址:http://sqoop.apache.org/docs原创 2016-10-27 10:22:59 · 703 阅读 · 0 评论 -
spark在集群上运行
1.spark在集群上运行应用的详细过程(1)用户通过spark-submit脚本提交应用(2)spark-submit脚本启动驱动器程序,调用用户定义的main()方法(3)驱动器程序与集群管理器通信,申请资源以启动执行器节点(4)集群管理器为驱动器程序启动执行器节点(5)驱动器进程执行用户应用中的操作。根据程序中所定义的对RDD的转化操作和行动操作,驱动转载 2016-12-09 10:25:05 · 544 阅读 · 0 评论 -
Spark SQL 官方文档-中文翻译
1 概述(Overview)2 DataFrames2.1 入口:SQLContext(Starting Point: SQLContext)2.2 创建DataFrames(Creating DataFrames)2.3 DataFrame操作(DataFrame Operations)2.4 运行SQL查询程序(Running SQL Queries Programmatically)转载 2016-12-05 18:06:28 · 2465 阅读 · 0 评论 -
Spark算子:RDD基本转换操作(3)–randomSplit、glom
randomSplitdef randomSplit(weights: Array[Double], seed: Long = Utils.random.nextLong): Array[RDD[T]]该函数根据weights权重,将一个RDD切分成多个RDD。该权重参数为一个Double数组第二个参数为random的种子,基本可忽略。scala> var rd转载 2016-12-04 20:41:57 · 435 阅读 · 0 评论 -
Spark算子:RDD基本转换操作(2)–coalesce、repartition
coalescedef coalesce(numPartitions: Int, shuffle: Boolean = false)(implicit ord: Ordering[T] = null): RDD[T]该函数用于将RDD进行重分区,使用HashPartitioner。第一个参数为重分区的数目,第二个为是否进行shuffle,默认为false;以下面的例转载 2016-12-04 13:08:51 · 318 阅读 · 0 评论 -
Spark算子:RDD基本转换操作(1)–map、flagMap、distinct
map将一个RDD中的每个数据项,通过map中的函数映射变为一个新的元素。输入分区与输出分区一对一,即:有多少个输入分区,就有多少个输出分区。hadoop fs -cat /tmp/lxw1234/1.txthello worldhello sparkhello hive //读取HDFS文件到RDDscala> var data = sc.textFile("/tmp/lx转载 2016-12-03 22:03:08 · 393 阅读 · 0 评论 -
Spark基础与Java Api介绍
一、Spark简介 1、什么是Spark 发源于AMPLab实验室的分布式内存计算平台,它克服了MapReduce在迭代式计算和交互式计算方面的不足。 相比于MapReduce,Spark能充分利用内存资源提高计算效率。 2、Spark计算框架 Driver程序启动很多workers,然后workers在(分布式)文件系统中读取数据后转转载 2016-12-02 15:12:26 · 457 阅读 · 0 评论 -
hadoop fs 命令
1,Hadoop fs –fs [local | <file system URI>]:声明hadoop使用的文件系统,如果不声明的话,使用当前配置文件配置的,按如下顺序查找:hadoop jar里的hadoop-default.xml->$HADOOP_CONF_DIR下的hadoop-default.xml->$HADOOP_CONF_DIR下的hadoop-site.xml。使用loca原创 2016-12-02 14:28:44 · 355 阅读 · 0 评论 -
HiveQL 常用操作
HiveQL 常用操作 1. 创建表Create Table dept (deptno Int,dname String) Row format delimited fields terminated By'\t';Create Table emp (empno Int,ename String,mgr Int,sal Float,deptno Int) Row for转载 2016-12-02 09:32:41 · 677 阅读 · 0 评论 -
hive函数参考手册
原文见:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF1.内置运算符1.1关系运算符运算符类型说明A = B所有原始类型如果A与B相等,返回TRUE,否则返回FALSEA == B无失败,因为无效的语转载 2016-12-02 09:26:59 · 311 阅读 · 0 评论 -
Hive日期格式转换用法
1.日期函数UNIX时间戳转日期函数: from_unixtime语法:from_unixtime(bigint unixtime[, stringformat]) 返回值: string说明: 转化UNIX时间戳(从1970-01-0100:00:00 UTC到指定时间的秒数)到当前时区的时间格式举例:Hive> select from_unixtime(1323308943,'转载 2016-12-02 09:12:29 · 7479 阅读 · 0 评论 -
windows环境下eclipse运行mapreduce方法
由于公司本都是windows环境的,所在在没有服务器和虚拟机的条件下,怎么才能运行和调试mapreduce。一、需要环境jdkhadoop(windows64位插件)下载地址:http://download.youkuaiyun.com/download/myamor/8393459hadoop所需jar包二、搭建环境下载hadoop-windows64位插件,进行解压,并在内建立bi原创 2017-02-06 13:46:25 · 669 阅读 · 0 评论