
大数据相关博文
楚码小生
it男
展开
-
图解RDD血缘关系
需求有三个RDD ,分别是 rddA,rddB,rddC.取数据1,2,3,4,5并且分成三个分区,对输入的数据的每一个数据*2 ,只取大于 6 的数据.代码 val rddA = sc.parallelize(List(1, 2, 3, 4, 5),3) //rddA: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRD...原创 2019-12-17 08:25:21 · 1398 阅读 · 0 评论 -
spark实现排序的三种方式
根据购买人数降序,购买人数相同根据价格降序排序object SparkDemo01 { def main(args: Array[String]): Unit = { //简单的 demo // productDemo1() //通过 class 实现 // productDemo2() //通过 case class实现 p...原创 2019-12-12 06:40:14 · 1955 阅读 · 0 评论 -
hive drop表恢复手册
前言语法:DROP TABLE [IF EXISTS] table_name [PURGE]; -- (Note: PURGE available in Hive 0.14.0 and later)删除此表的元数据和数据。如果配置了Trash (没有指定 PURGE),数据实际上会移动到 .Trash/Current 目录。元数据完全丢失。删除外部表时,表中的数据不会从文件系统中删...原创 2019-10-22 01:27:26 · 1163 阅读 · 0 评论 -
Apache Flume快速入门手册
介绍apache fulme是一个分布式的高可用的框架,可以从不同的数据源大量的操作日志数据,能高效的收集,聚合,移动日志数据集中到存储中。apahce fulme不仅仅是日志聚合功能,还能自定义数据源,用于传输大量的事件数据,网络流量数据,社交媒体数据,邮件数据以及其他数据Apache Flume 目前有两种主版本: 0.9.x 和 1.x。其中 0.9.x 是历史版本,称之为 Flume...原创 2019-09-17 01:55:09 · 278 阅读 · 0 评论 -
idea写好的mapreduce程序跑在yarn上
添加配置到文件core-site.xml <property> <name>fs.defaultFS</name> <!--Yarn 需要使用 fs.defaultFS 指定NameNode URI --><!-- # 配置自己机器的IP--> <value>hdfs://b...原创 2019-09-02 23:34:06 · 392 阅读 · 0 评论 -
windows下hadoop开发踩坑日志
NO.1org.apache.hadoop.ipc.RemoteException(java.io.IOException): File /heasy/data could only be replicated to 0 nodes instead of minReplication (=1). There are 1 datanode(s) running and 1 node(s) are...原创 2019-08-31 00:22:03 · 582 阅读 · 0 评论 -
阿里云搭建hadoop伪分布式
购买机器地址:https://www.aliyun.com/product/ecs?spm=5176.12825654.eofdhaal5.2.e9392c4acVBgPk使用root登录机器创建用户$ useradd hadoop $ vi /etc/sudoers # 找到root ALL=(ALL) ALL,添加 hadoop ALL=(ALL) NO...原创 2019-08-27 00:02:32 · 352 阅读 · 0 评论 -
spark2.4.2版本编译
机器环境:mac 10.14.6Apache Maven 3.5.4(https://archive.apache.org/dist/maven/maven-3/3.5.4/)Java version: 1.8.0_151(https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html...原创 2019-08-08 20:01:04 · 693 阅读 · 0 评论 -
hadoop 编译 版本(hadoop-2.6.0-cdh5.15.1)
编译前准备工作系统环境配置操作系统版本:CentOS Linux release 7.5.1804需要提前支持的类库:# 安装 gcc、gcc-c++yum install gccyum install glibc-headersyum install gcc-c++ # 安装 cmakeyum install cmake# 安装 openssl-develyum ins...原创 2019-08-04 02:00:07 · 3862 阅读 · 1 评论 -
centos 7.5hadoop环境搭建详解
开发环境mac 系统 vm fusion centos 7.5mini配置静态的ip地址修改vim /etc/sysconfig/network-scripts/ifcfg-ens33 这个配置文件在该文件中添加,修改如下内容:BOOTPROTO="static" #配置为静态ip#增加ip信息内容IPADDR=192.168.31.11GATEWAY=192.168.31.1...原创 2019-06-30 21:07:31 · 361 阅读 · 0 评论 -
zokeeper集群安装
下载下载地址https://archive.apache.org/dist/zookeeper/从这里选择适合自己的版本,由于我这里使用的是cdh版本的,所以我这里的下载地址是http://archive.cloudera.com/cdh5/cdh/5/从这里选择对应的cdh版本,然后使用wget 选择的版本的下载地址命令加上下载地址进行下载。注意:这里虽然两个版本不一样,但是在集群安装的方...原创 2019-06-05 00:34:39 · 242 阅读 · 0 评论 -
hive 2.3.4安装
下载地址https://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive-2.3.4/下载apache-hive-2.3.4-bin.tar.gz解压文件tar -zxvf apache-hive-2.3.4-bin.tar.gz -C ../module/安装和配置mariadb安装 yum install mariadb-serv...原创 2019-05-20 23:36:48 · 526 阅读 · 0 评论