- 博客(21)
- 收藏
- 关注
转载 使用zipwithindex 算子给dataframe增加自增列 row_number函数实现自增,udf函数实现自增...
DataFrame df = ...StructType schema = df.schema().add(DataTypes.createStructField("id", DataTypes.LongType, false));使用RDD的zipWithIndex得到索引,作为ID值:JavaRDD<Row> rdd = df .javaRDD() // 转为J...
2019-09-03 18:10:00
223
转载 hive 四种表,分区表,内部,外部表,桶表
Hive四大表类型内部表、外部表、分区表和桶表一、概述总体上Hive有四种表:外部表,内部表(管理表),分区表,桶表。分别对应不同的需求。下面主要讲解各种表的适用情形、创建和加载数据方法。二、具体内容1.内部表创建内部表和加载数据create table emp_inner(empno i...
2019-09-03 18:00:00
256
转载 hive 动态分区
非常重要的动态分区属性:hive.exec.dynamic.partition 是否启动动态分区。false(不开启) true(开启)默认是 falsehive.exec.dynamic.partition.mode 打开动态分区后,动态分区的模式,有 strict和 nonstrict 两个值可选,strict 要求至少包含一个静态分区列,nonstrict则无此要求。各...
2019-09-03 11:07:00
257
转载 spark storm 反压
因特殊业务场景,如大促、秒杀活动与突发热点事情等业务流量在短时间内剧增,形成巨大的流量毛刺,数据流入的速度远高于数据处理的速度,对流处理系统构成巨大的负载压力,如果不能正确处理,可能导致集群资源耗尽最终集群崩溃,因此有效的反压机制(backpressure)对保障流处理系统的稳定至关重要。Storm和SparkStreaming都提供了反压机制,实现各不相同对于开启了ac...
2019-08-23 11:15:00
161
转载 Streaming+Sparksql使用sql实时分析 rabbitmq+mongodb+hive
SparkConf sparkConf = new SparkConf()//此处使用一个链接切记使用一个链接否则汇报有多个sparkcontext错误 .setAppName("SparkConsumerRabbit") .setMaster("local[2]") .set("hive.metastore.uris", thrift) ...
2019-08-13 10:35:00
324
转载 org.apache.spark.logging类报错
一,1 在使用spark读取kafka数据时,当spark升级到2.0之后,出现如上问题:之前遇到了,当时在工程里面添加了org.apache.spark.Logging类,能够运行。但是在后期使用过程中,又遇到了相同的问题,为了一劳永逸,今天彻底把问题解决。在项目下创建org.apache.spark.logging类将源码考入类中package org.apach...
2019-08-12 15:17:00
1190
转载 spark和mapreduce的区别
spark和mapreduced 的区别map的时候处理的时候要落地磁盘 每一步都会落地磁盘 reduced端去拉去的话 基于磁盘的迭代spark是直接再内存中进行处理 dag 执行引擎是一个job的优化 将一个job话成很多快 分成多个task去跑任务 读取数据来源比喻亚马逊的s3 和hbase很广运行模式也有很多spark项目一般java 和scala 来写 pytho...
2019-08-06 20:51:00
195
转载 scala基本语法
scala基本语法scala函数1 def定义方法2 方法的返回值类型可以省略3 方法体重最后一行计算结果可以返回 return 如果省略方法类型4 方法参数 要指定类型5 如果方法体可以一步搞定 方法体中的{}可以省略6 定义方法=可以省略,省略之后,无论方法体重最后的计算结果是那些都会被丢弃二 递归函数三 有默认参数的函数四 可变长参数函数五 匿名函数 ()={}六 嵌套函数七 ...
2019-08-06 20:49:00
120
转载 spark和strom优劣分析
对于Storm来说:1、建议在那种需要纯实时,不能忍受1秒以上延迟的场景下使用,比如实时金融系统,要求纯实时进行金融交易和分析2、此外,如果对于实时计算的功能中,要求可靠的事务机制和可靠性机制,即数据的处理完全精准,一条也不能多,一条也不能少,也可以考虑使用Storm3、如果还需要针对高峰低峰时间段,动态调整实时计算程序的并行度,以最大限度利用集群资源(通常是在小型公司,集群资源紧张的情...
2019-08-06 20:47:00
145
转载 hadoop各版本hadoop.dll和winutils.exe缺少这两个文件
1.1 缺少winutils.exeCould not locate executable null \bin\winutils.exe in the hadoop binaries1.2 缺少hadoop.dllUnable to load native-hadoop library for your platform… using builtin-Java classes where...
2019-08-06 20:43:00
1909
转载 hive数仓客户端界面工具
1.Hive的官网上介绍了三个可以在Windows中通过JDBC连接HiveServer2的图形界面工具,包括:SQuirrel SQL Client、Oracle SQL Developer以及DbVisualizer。2.SQuirrel SQL Client从http://squirrel-sql.sourceforge.net/下载最新的squirrel-sql,版本为3...
2019-08-06 20:38:00
542
转载 spark注册虚拟表和取消注册
// spark应用程序终止前有效df.createOrReplaceGlobalTempView("tempViewName") 取消注册:spark.catalog.dropTempView("tempViewName")spark.catalog.dropGlobalTempView("tempViewName")临时表只是给df起了个名字,能够像使用hive表一样使用,并不会占...
2019-08-06 20:25:00
271
转载 maven打jar包包括依赖包
<build> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <version>2.3.2</version> ...
2019-08-06 20:20:00
167
转载 hadoop断电报错解决
一,/home/hadoop/tmp/dfs/name/current 目录下查看文件二,1.stop hadoop所有的服务;2.重新格式化namenode即可: hadoop根目录下: hadoop namenode -format 重新格式化完就好了重新格式化完后要更改文件目录权限hadoop fs -chmod -R 777 /tmp三,hadoop配置挺麻烦的,总会出现各种奇...
2019-08-06 18:39:00
271
转载 window下打jar包
比如我的项目在 F/MyjarF:\Myjar>ll'll' 不是内部或外部命令,也不是可运行的程序或批处理文件。F:\Myjar>cd mian系统找不到指定的路径。F:\Myjar>cd java系统找不到指定的路径。F:\Myjar>cd srcF:\Myjar\src>cd mainF:\Myjar\src\main>c...
2019-08-06 18:15:00
160
转载 无法解析主机报错
[root@node3 ~]# yum -y install make gcc Loaded plugins: fastestmirror, langpacksLoading mirror speeds from cached hostfile * base: centos.ustc.edu.cn * extras: centos.ustc.edu.cn * updates: cento...
2019-08-06 18:09:00
1086
转载 SparkStreaming对接rabbitMQ
/** * SparkStreaming对接rabbitmq java代码 */public class SparkConsumerRabbit { public static void main(String[] args) throws InterruptedException, AnalysisException { SparkConf sparkConf = ...
2019-07-31 20:10:00
1166
转载 load文件到hive,并保存
DataFrame usersDF = sqlContext.read().load("hdfs://spark1:9000/users.parquet"); usersDF.select("name", "favorite_color").write() .save("hdfs://spark1:9000/namesAndFa...
2019-07-31 13:15:00
318
转载 kafka模式对比
Receiver是使用Kafka的高层次Consumer API来实现的。receiver从Kafka中获取的数据都是存储在Spark Executor的内存中的,然后Spark Streaming启动的job会去处理那些数据。然而,在默认的配置下,这种方式可能会因为底层的失败而丢失数据。如果要启用高可靠机制,让数据零丢失,就必须启用Spark Streaming的预写日志机制(Writ...
2019-07-31 13:11:00
142
转载 RabbitMQ搭建单机及集群
1,基本环境配置 hosts 文件 免密登录2,访问官网https://www.rabbitmq.com/download.html3,4,安装依赖yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel5,yum install erlang6,安装er...
2019-07-31 13:03:00
111
转载 Nginx搭建详细
Linux 安装Nginx搭建详细内容进入:/usr/java/nginx位置下载nginx: wget et http://nginx.org/download/nginx-1.8.0.tar.gz下载openssl : wget et http://www.openssl.org/source/openssl-fips-2.0.9.tar.gz下载zlib : wge...
2018-10-31 09:30:00
106
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人