aoyugang0603-优快云博客

转载使用zipwithindex 算子给dataframe增加自增列 row_number函数实现自增，udf函数实现自增...

DataFrame df = ...StructType schema = df.schema().add(DataTypes.createStructField("id", DataTypes.LongType, false));使用RDD的zipWithIndex得到索引，作为ID值：JavaRDD<Row> rdd = df .javaRDD() // 转为J...

2019-09-03 18:10:00 263

转载 hive 四种表，分区表，内部，外部表，桶表

Hive四大表类型内部表、外部表、分区表和桶表一、概述总体上Hive有四种表：外部表，内部表（管理表），分区表，桶表。分别对应不同的需求。下面主要讲解各种表的适用情形、创建和加载数据方法。二、具体内容1.内部表创建内部表和加载数据create table emp_inner(empno i...

2019-09-03 18:00:00 302

转载 hive 动态分区

非常重要的动态分区属性：hive.exec.dynamic.partition 是否启动动态分区。false(不开启) true（开启）默认是 falsehive.exec.dynamic.partition.mode 打开动态分区后，动态分区的模式，有 strict和 nonstrict 两个值可选，strict 要求至少包含一个静态分区列，nonstrict则无此要求。各...

2019-09-03 11:07:00 311

转载 spark storm 反压

因特殊业务场景，如大促、秒杀活动与突发热点事情等业务流量在短时间内剧增，形成巨大的流量毛刺，数据流入的速度远高于数据处理的速度，对流处理系统构成巨大的负载压力，如果不能正确处理，可能导致集群资源耗尽最终集群崩溃，因此有效的反压机制(backpressure)对保障流处理系统的稳定至关重要。Storm和SparkStreaming都提供了反压机制，实现各不相同对于开启了ac...

2019-08-23 11:15:00 198

转载 Streaming+Sparksql使用sql实时分析 rabbitmq+mongodb+hive

SparkConf sparkConf = new SparkConf()//此处使用一个链接切记使用一个链接否则汇报有多个sparkcontext错误 .setAppName("SparkConsumerRabbit") .setMaster("local[2]") .set("hive.metastore.uris", thrift) ...

2019-08-13 10:35:00 372

转载 org.apache.spark.logging类报错

一，1 在使用spark读取kafka数据时，当spark升级到2.0之后，出现如上问题：之前遇到了，当时在工程里面添加了org.apache.spark.Logging类，能够运行。但是在后期使用过程中，又遇到了相同的问题，为了一劳永逸，今天彻底把问题解决。在项目下创建org.apache.spark.logging类将源码考入类中package org.apach...

2019-08-12 15:17:00 1258

转载 spark和mapreduce的区别

spark和mapreduced 的区别map的时候处理的时候要落地磁盘每一步都会落地磁盘 reduced端去拉去的话基于磁盘的迭代spark是直接再内存中进行处理 dag 执行引擎是一个job的优化将一个job话成很多快分成多个task去跑任务读取数据来源比喻亚马逊的s3 和hbase很广运行模式也有很多spark项目一般java 和scala 来写 pytho...

2019-08-06 20:51:00 217

转载 scala基本语法

scala基本语法scala函数1 def定义方法2 方法的返回值类型可以省略3 方法体重最后一行计算结果可以返回 return 如果省略方法类型4 方法参数要指定类型5 如果方法体可以一步搞定方法体中的{}可以省略6 定义方法=可以省略,省略之后,无论方法体重最后的计算结果是那些都会被丢弃二递归函数三有默认参数的函数四可变长参数函数五匿名函数 ()={}六嵌套函数七 ...

2019-08-06 20:49:00 142

转载 spark和strom优劣分析

对于Storm来说：1、建议在那种需要纯实时，不能忍受1秒以上延迟的场景下使用，比如实时金融系统，要求纯实时进行金融交易和分析2、此外，如果对于实时计算的功能中，要求可靠的事务机制和可靠性机制，即数据的处理完全精准，一条也不能多，一条也不能少，也可以考虑使用Storm3、如果还需要针对高峰低峰时间段，动态调整实时计算程序的并行度，以最大限度利用集群资源（通常是在小型公司，集群资源紧张的情...

2019-08-06 20:47:00 165

转载 hadoop各版本hadoop.dll和winutils.exe缺少这两个文件

1.1 缺少winutils.exeCould not locate executable null \bin\winutils.exe in the hadoop binaries1.2 缺少hadoop.dllUnable to load native-hadoop library for your platform… using builtin-Java classes where...

2019-08-06 20:43:00 1979

转载 hive数仓客户端界面工具

1.Hive的官网上介绍了三个可以在Windows中通过JDBC连接HiveServer2的图形界面工具，包括：SQuirrel SQL Client、Oracle SQL Developer以及DbVisualizer。2.SQuirrel SQL Client从http://squirrel-sql.sourceforge.net/下载最新的squirrel-sql，版本为3...

2019-08-06 20:38:00 598

转载 spark注册虚拟表和取消注册

// spark应用程序终止前有效df.createOrReplaceGlobalTempView("tempViewName") 取消注册：spark.catalog.dropTempView("tempViewName")spark.catalog.dropGlobalTempView("tempViewName")临时表只是给df起了个名字，能够像使用hive表一样使用，并不会占...

2019-08-06 20:25:00 308

转载 maven打jar包包括依赖包

<build> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <version>2.3.2</version> ...

2019-08-06 20:20:00 200

转载 hadoop断电报错解决

一，/home/hadoop/tmp/dfs/name/current 目录下查看文件二，1.stop hadoop所有的服务;2.重新格式化namenode即可： hadoop根目录下： hadoop namenode -format 重新格式化完就好了重新格式化完后要更改文件目录权限hadoop fs -chmod -R 777 /tmp三，hadoop配置挺麻烦的，总会出现各种奇...

2019-08-06 18:39:00 304

转载 window下打jar包

比如我的项目在 F/MyjarF:\Myjar>ll'll' 不是内部或外部命令，也不是可运行的程序或批处理文件。F:\Myjar>cd mian系统找不到指定的路径。F:\Myjar>cd java系统找不到指定的路径。F:\Myjar>cd srcF:\Myjar\src>cd mainF:\Myjar\src\main>c...

2019-08-06 18:15:00 185

转载无法解析主机报错

[root@node3 ~]# yum -y install make gcc Loaded plugins: fastestmirror, langpacksLoading mirror speeds from cached hostfile * base: centos.ustc.edu.cn * extras: centos.ustc.edu.cn * updates: cento...

2019-08-06 18:09:00 1130

转载 SparkStreaming对接rabbitMQ

/** * SparkStreaming对接rabbitmq java代码 */public class SparkConsumerRabbit { public static void main(String[] args) throws InterruptedException, AnalysisException { SparkConf sparkConf = ...

2019-07-31 20:10:00 1215

转载 load文件到hive，并保存

DataFrame usersDF = sqlContext.read().load("hdfs://spark1:9000/users.parquet"); usersDF.select("name", "favorite_color").write() .save("hdfs://spark1:9000/namesAndFa...

2019-07-31 13:15:00 347

转载 kafka模式对比

Receiver是使用Kafka的高层次Consumer API来实现的。receiver从Kafka中获取的数据都是存储在Spark Executor的内存中的，然后Spark Streaming启动的job会去处理那些数据。然而，在默认的配置下，这种方式可能会因为底层的失败而丢失数据。如果要启用高可靠机制，让数据零丢失，就必须启用Spark Streaming的预写日志机制（Writ...

2019-07-31 13:11:00 163

转载 RabbitMQ搭建单机及集群

1，基本环境配置 hosts 文件免密登录2，访问官网https://www.rabbitmq.com/download.html3，4，安装依赖yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel5，yum install erlang6，安装er...

2019-07-31 13:03:00 134

转载 Nginx搭建详细

Linux 安装Nginx搭建详细内容进入：/usr/java/nginx位置下载nginx: wget et http://nginx.org/download/nginx-1.8.0.tar.gz下载openssl : wget et http://www.openssl.org/source/openssl-fips-2.0.9.tar.gz下载zlib : wge...

2018-10-31 09:30:00 128

aoyugang0603的博客