- 博客(6)
- 收藏
- 关注
原创 hive动态分区报错
HIVE动态分区,由于动态分区个数过多,map端内存溢出,报错。containerID=container_e86_1608865192015_2953765_01_000002] is running beyond physical memory limits. Current usage: 3.0 GB of 3 GB physical memory used; 5.1 GB of 6.3 GB virtual memory used. Killing container. Dump of the p
2021-03-11 09:42:49
1152
原创 Spark性能优化
Spark性能优化篇Spark性能调优主要包括以下手段:对RDD使用高性能序列化类库优化数据结构对多次使用的RDD进行持久化 / Checkpoint使用序列化的持久化级别Java虚拟机垃圾回收调优提高并行度广播共享数据数据本地化reduceByKey和groupByKey的合理使用Shuffle调优算子调优上述这几...
2020-01-10 15:33:58
1009
原创 hadoop 参数大全
hadoop 参数大全方法一.可以通过hadoop官方网址查询,网址如下: http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/core-default.xmlhttp://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/h...
2019-12-18 17:51:54
428
转载 hadoop之failed task和killed task
failed task可理解为自杀,也就是task本身出了问题而自杀;killed task可理解为是他杀,也就是jobtracker认为这个任务的执行是多余的,所以把任务直接杀掉。起初用hadoop的时候经常在一个complete的job中看到几个failed 或者是 killed task,还经常好奇为什么有的时候task的失败不会影响到整个job的失败,而有的时候就会使整个job的失败,到底...
2019-12-18 17:22:07
525
原创 hadoop出现org.apache.hadoop.hdfs.server.namenode.NotReplicatedYetException
[2019-12-18 01:19:42,762] {bash_operator.py:165} INFO - org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.NotReplicatedYetException): Not replicated yet: /tmp/st_browser_sso...
2019-12-18 09:48:29
2540
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人