- 博客(109)
- 资源 (4)
- 收藏
- 关注
原创 实现ssh输入密码备份文件
sshpass -p "密码" scp -o StrictHostKeyChecking=no -r conf tdbank@ip地址:/data/work/conf。
2024-12-05 21:19:19
92
原创 G1 GC 并行参数解读
ConcGCThreads是和业务线程并发做的,ParallelGCThreads是暂停时间并行进行的。这种阶段是ParallelGCThreads并行做的。这种阶段是ConcGCThreads这个参数并行的。
2023-06-15 11:26:35
553
原创 HIVE MAP 函数使用
hive 中 map<string,map<string,string>> 类型使用,构建写入数据案例hive > select map('a','1');OK{"a":"1"}Time taken: 1.058 seconds, Fetched: 1 row(s)hive> > > select map('a','1','b','2');OK{"a":"1","b":"2"}hive> select m...
2022-05-26 18:04:08
3356
原创 mapreduce 控制map和reduce 运行数量
<property> <name>mapreduce.job.running.map.limit</name> <value>500</value> </property> <property> <name>mapreduce.job.running.reduce.limit</name> <value>...
2021-09-29 17:51:17
420
原创 设置hive 任务最大 map reduce 并行度
setmapreduce.job.running.map.limit=2000;setmapreduce.job.running.reduce.limit=500;
2021-04-26 12:19:32
1343
原创 Mapreduce 任务获取配置信息和counters 信息
获取用户MR 任务配置信息apihttp://xxxx:8080/proxy/application_1605539278152_9672465/ws/v1/mapreduce/jobs/job_1605539278152_9672465/conf通过api 获取MRcountershttp://xxx:8080/proxy/application_1605539278152_9624852/ws/v1/mapreduce/jobs/job_1605539278152_9624852/cou..
2021-03-31 20:45:19
484
原创 spark 3.0 关注性能优化
1、自适应查询执行优化动态合并shuffle partition 动态调整join策略 动态2、动态分区裁剪3、Join hints4、ANSISQL 兼容增强的Python API:PySpark和KoalasHydrogen、流和可扩展性
2020-09-16 17:33:59
183
原创 解决hiveserver2 执行SQL 出现: User: infosec is not allowed to impersonate infosec
Exception:org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.authorize.AuthorizationException):User:infosecisnotallowedtoimpersonateinfosec解决方法:1.删除hadoop-env.sh中HADOOP_USER_NAME的设置2.创建用户infosec,sudosuinfosec之后再...
2020-09-01 15:12:10
625
原创 linux 替换特殊符号 \\ 处理方式
-i参数:在原始文件上修改sed全文替换的标准用法:sed 's/oldString/newString/g' filename但是有特殊字符时则失效,需要将‘/’替换成‘#’:sed 's#oldString#newString#g' filename如:sed 's#_#\\_#g' ceshi.tex连续替换多个特殊字符:‘_’, '^'sed -i 's#_#\\_#g ...
2020-04-08 18:49:36
3228
1
原创 sqoop 处理换行符 \n 和\r 等特殊符号处理
公司大数据平台ETL操作中,在使用sqoop将mysql中的数据抽取到hive中时,由于mysql库中默写字段中会有换行符,导致数据存入hive后,条数增多(每个换行符会多出带有null值得一条数据),导致统计数据不准确。因为sqoop 导出文件不能是ORC这种列式存储,所以只能替换。导出后对替换的字符在进行替换,将数据表存储orc解决办法:利用一下两个参数可以实现对换行等特殊字...
2019-12-31 21:44:02
5325
3
原创 设置spark thriftServer2 端口
spark thriftServer要设置开放端口,在hive-site.xml中设置没有用时:可以设置:export HIVE_SERVER2_THRIFT_PORT=10013脚本如下:act=$1export HIVE_SERVER2_THRIFT_PORT=10013function start_Thrift(){ ./sbin/sta...
2019-11-18 17:40:58
2532
原创 Hive textfile数据表更改输入输出文件格式
altertabletmp_etltest.xxx SETFILEFORMATINPUTFORMAT'org.apache.hadoop.mapred.TextInputFormat'OUTPUTFORMAT'org.apache.hadoop.mapred.TextOutputFormat'SERDE'org.apache.hadoop.hive.serde2.lazy.Laz...
2019-11-11 16:53:06
1326
原创 spark sql 出现 java.lang.RuntimeException: serious problem
1、详细的日志异常信息java.lang.RuntimeException: serious problematorg.apache.hadoop.hive.ql.io.orc.OrcInputFormat.generateSplitsInfo(OrcInputFormat.java:1021)atorg.apache.hadoop.hive.ql.io.orc.OrcInputFor...
2019-09-03 17:56:01
6431
原创 解决hivemeta 多服务缓存数据不同步问题
1、改动的地方2、增加的数据表hiveMetastore.METASTORE_REFRESH 数据表1、增加了各个hivemeta 服务进行定时检测功能,检测其他hivemta 是否有alter 操作设计思想图:修改的主要代码:org.apache.hadoop.hive.metastore.ObjectStore的initialize...
2019-09-02 15:54:44
848
2
原创 StrutsStreaming实时cube:5个维度
第一步拼接 all#字段 select to_utc_timestamp(exec_time, 'PDT') as ftime, substr(exec_time, 0, 10) as Fexec_date, substr(exec_time, 12, 5) as Fexec_hhmm, concat('ALL', '#', headers_host) as Fs...
2019-09-02 14:59:54
288
原创 shell curl 发送post 请求 HTTP/1.1 415 Unsupported Media Type
curl -i -X POST -H "'Content-type':'application/json'" -d '{"userName": "xxx","sql": "select * from dp_tmp.test_table ","etl_jobid": "1","db_name": "dp_temp","table_name": "test_table"}' http://10.xx....
2019-03-29 16:49:22
4608
原创 org.apache.spark.shuffle.FetchFailedException: Failed to connect to xxx.hadoop.com:7337
在大规模数据处理中,这是个比较常见的错误。报错提示报错1: FetchFailed(BlockManagerId(846, xxx.hadoop.com, 7337, None), shuffleId=262, mapId=96, reduceId=122, message=org.apache.spark.shuffle.FetchFailedException: Failed to conn...
2018-05-04 18:11:41
5962
转载 dr.elephant 环境搭建及使用详解
Dr.elephant是一款对Hadoop和Spark任务进行性能监控和调优的工具,它由LinkedIn的团队于2016年开源,开源之前已经在公司运行使用2年。目前使用Dr.elephant的公司国内的有Didi,国外的有airbnb、inmobi、hulu、FourSquare和PayPal等等。 项目地址:https://github.com/linkedin/dr-elephant笔者所在公...
2018-04-11 10:15:57
904
原创 Kylin 2.3.0 清理hbase临时废弃的数据表
Kylin 2.3.0 在创建cube过程中会在HDFS上生成中间数据。另外,当我们对cube执行purge/drop/merge时,一些HBase的表可能会保留在HBase中,而这些表不再被查询,尽管Kylin会做一些自动的垃圾回收,但是它可能不会覆盖所有方面,所以需要我们能够每隔一段时间做一些离线存储的清理工作。具体步骤如下:1. 检查哪些资源需要被清理,这个操作不会删除任何内容:${...
2018-03-28 10:54:20
1364
原创 kylin 2.3.0部署和遇到问题整理
一、 部署kylin环境1. 部署的环境准备 Kylin2.3.0 默认支持spark2.1版本,对版本的spark 2.2 兼容存在问题。2. 下载最新的tar最新下载地址apache-kylin-2.3.0-hbase1x-bin.tar.gz3. 解压缩,配置kylin环境a) 配置kylin jvm 大小setenv.shKyl...
2018-03-28 10:02:56
5328
1
原创 Spark 2.x永久自定义函数编写
以前写过一篇spark1.6.x编写永久的自定义函数,今天补上写spark2.x永久自定义函数的步骤:1、使用scala语言编写自定义函数,spark2.x已经不在支持使用hive的方式加载函数 Scala类参数不同继承不同scala类(UnaryExpression、BinaryExpression、TernaryExpression、Expression) 重写nullSafeEv...
2018-03-06 18:03:47
3540
原创 Spark Release 2.3.0 版本发布新特性和优化
Apache Spark 2.3.0是2.x系列中的第四个版本。此版本增加了对结构化流中的连续处理以及全新的Kubernetes Scheduler后端的支持。其他主要更新包括新的DataSource和结构化Streaming v2 API,以及一些PySpark性能增强。此外,此版本继续关注可用性,稳定性和抛光,同时解决了大约1400问题。要下载Apache Spark 2.3.0,请访问下载页...
2018-03-05 17:54:33
3824
原创 CarbonData编译、安装和集成Spark 2.2
carbandata官网地址 一、编译1、获取源码git clone https://github.com/apache/carbondata.git编译需要安装maven和jdk 1.7或者1.82、编译mvn -DskipTests -Pspark-2.2 -Dspark.version=2.2.0 clean package3、获取打包后的jar,打包后只有一个大
2017-12-21 15:56:16
2031
原创 Spark on yarn client 和cluster模式运行序列图
序列图是基于spark 2.1进行本地调试画的:通过这两张图给想看源码的的朋友应该会有很大的帮助。spark on yarn client模式: spark on yarn Cluster模式:
2017-06-19 11:52:59
575
原创 spark-2.2.0-rc4 编译 [error] javac: invalid source release: 1.8
编译环境:java version "1.8.0_131"Apache Maven 3.3.9linux进入linux:执行如下命令:cd $spark_home/spark-2.2.0-rc4./dev/make-distribution.sh --name custom-spark --tgz -Psparkr -Phadoop-2.6 -Phive -Ph
2017-06-14 16:02:09
2853
原创 spark-2.2.0-rc1 编译
我们采用mvn编译:Apache Maven 3.3.9Java version: 1.7.0_79 执行命令:mvn -Pyarn -Phadoop-2.6 -Dhadoop.version=2.6.0 -Phive -Phive-thriftserver -DskipTests clean package出现如下异常:Failed to execute goal net.alc
2017-05-02 10:09:27
1326
原创 spark ListenerBus 监听器
Spark 源码中对livelistenerBus进行了这样的注释:即所有spark消息SparkListenerEvents 被异步的发送给已经注册过的SparkListeners. 在SparkContext中, 首先会创建LiveListenerBus实例,这个类主要功能如下:保存有消息队列,负责消息的缓存保存有注册过的listener,负责消息的分发li
2017-03-17 16:59:27
6413
原创 Spark Shuffle FetchFailedException解决方案
在大规模数据处理中,这是个比较常见的错误。报错提示SparkSQL shuffle操作带来的报错org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle 0 org.apache.spark.shuffle.FetchFailed
2017-03-17 16:45:12
6247
原创 spark sql 表分区出现损坏
表分区出现损坏 1) Create a table"test". "create table test (n string) partitioned by (pstring)"2) Load some data into partition(p='1')3)Remove the path related to partition(p='1') of table test manua
2017-03-17 16:44:08
1996
原创 hadoop namnode 挂掉以及解决的过程记录如下
现将namnode 挂掉以及解决的过程记录如下:1、时间(2016-03-08-22:20) 发现namnode2状态为DOWN的告警2、采取措施 重启namenode2。集群正常3、分析原因 们的hadoop集群采用的是默认的hadoop-heapsize大小,1000m,内存过小导致namenode2出现内存溢出
2017-03-17 16:39:27
4094
转载 IntelliJ Idea 常用快捷键列表
Alt+回车 导入包,自动修正Ctrl+N 查找类Ctrl+Shift+N 查找文件Ctrl+Alt+L 格式化代码Ctrl+Alt+O 优化导入的类和包Alt+Insert 生成代码(如get,set方法,构造函数等)Ctrl+E或者Alt+Shift+C 最近更改的代码Ctrl+R 替换文本Ctrl+F 查找文本Ctrl+Shift+Space 自动
2016-09-21 16:25:17
408
原创 spark core 1.6.0 源码分析10 Task的运行
org.apache.spark.executorExecutor下面:TaskRunneroverride def run(): Unit = { val taskMemoryManager = new TaskMemoryManager(env.memoryManager, taskId) val deserializeStartTime = System.cu
2016-07-20 17:33:55
626
原创 spark 1.6.0 core源码分析9 从简单例子看action
这一节以reduce为例讲解action操作首先看submitJob方法,它将我们reduce中写的处理函数随JobSubmitted消息传递出去,因为每个分区都需要调用它进行计算;而resultHandler是指最后合并的方法,在每个task完成后,需要调用resultHandler将最终结果合并。所以它不需要随JobSubmitted消息传递,而是保存在JobWaiter中org.
2016-07-20 15:46:00
1072
原创 spark 1.6.0 core源码分析8 从简单例子看transformation
前面提到过spark自带的一个最简单的例子,介绍了SparkContext的部分,这节介绍剩余的内容中的transformation。object SparkPi { def main(args: Array[String]) { val conf = new SparkConf().setAppName("Spark Pi") val spark = new SparkC
2016-07-18 20:28:56
604
原创 spark 1.6.0 core源码分析7 Spark executor的运行
源码位置:org.apache.spark.executor.CoarseGrainedExecutorBackendprivate def run( driverUrl: String, executorId: String, hostname: String, cores: Int, appId: String, wo
2016-07-18 18:42:33
795
原创 spark 1.6.0 core源码分析6 Spark job的提交
本节主要讲解SparkContext的逻辑首先看一个spark自带的最简单的例子:
2016-07-15 18:59:45
881
tpch_2_14_3
2015-11-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人