- 博客(25)
- 收藏
- 关注
转载 kafka常见的数据丢失
链接:作者:hipeer该文章总结了目前出现的所有丢失情况,收益匪浅,特此转发出来。以供后期查找收录常见的数据丢失如果auto.commit.enable=true,当consumer fetch了一些数据但还没有完全处理掉的时候,刚好到commit interval出发了提交offset操作,接着consumer crash掉了。这时已经fetch的数据还没有处理完成但已经被commit...
2019-11-20 15:37:12
773
原创 kafka拉取数据报错
错误如下:Commit cannot be completed since the group has already rebalanced and assigned the partitions to another member. This means that the time between subsequent calls to poll() was longer than the c...
2019-10-21 10:00:59
1373
原创 sparksql小文件生成过多,导致job之间任务出现大量空白时间
由于时间久远。该问题十分具有代表性。所以今天将其记录一下。本人使用的是华为C70集群,spark1.5.1的版本,由于版本问题。原先批处理一个小时的程序变慢一倍。达到2小时的处理时长。以jstack和jstat的方式大量观察,排除了gc和oom的问题。那么问题到底出在哪里?截图为内网。我无法拿出来。我用语言描述一下:即为可以从spark UI界面观察得出。job界面中 多个stage之...
2019-09-05 14:45:57
1891
原创 Kerberos与phoenix整合所遇问题
本人使用的为phoenix 5.0.x 以及集群hdp3.1hbase 2.0.2报错信息为19/08/27 14:32:09 INFO RpcRetryingCallerImpl :Call exception, tries=10, retries=35, started=38465 ms ago, cancelled=false, msg=row 'bvuser,195861555,9...
2019-08-27 16:12:11
1492
转载 Failed to execute goal net.alchim31.maven:scala-maven-plugin:3.2.2:compile问题解决
看一个转载的帖子,非常有帮助链接这里:转载原文解决方法1转载:http://www.cnblogs.com/war3blog/p/7864804.html在编译spark源码的时候老师报类似的错误然后在spark 文件夹下的pom.xml里加入如下依赖,源码编译就没有报错成功编译出来了修改spark源码下的 pom.xml 文件<dependency> &...
2019-08-15 10:55:45
41170
5
转载 线性代数中矩阵的看法
其实一直都没有搞懂为什么矩阵是怎么个定义,为什么要变换,偶然看到一篇转载文感觉十分深刻,希望帮助做数据的朋友一点帮助,深度好文原文出处:https://blog.youkuaiyun.com/qq_37175369/article/details/80916641今天在网上看到这篇关于线性代数基本概念的理解,直接颠覆了传统枯燥的概念定理,让人从根本上去理解线性代数,希望对大家有所帮助(PS:网上文章不全,...
2019-07-05 14:53:49
881
原创 hive一点小技巧后面持续更新
create table table1 aswith tmp as (select * from table2…)select * from tmp;直接通过临时表+create table 方式来落地的hive语句;
2019-06-25 15:24:46
155
转载 转载hive空值判断
https://blog.youkuaiyun.com/liyonghui123/article/details/84854029hive中空值判断基本分两种1)NULL 与 \Nhive在底层数据中如何保存和标识NULL,是由 alter table name SET SERDEPROPERTIES(‘serialization.null.format’ = ‘\N’); 参数控制的则:底层数据保存...
2019-05-30 11:23:17
774
原创 spark on hive任务丢失parquet.io.ParquetDecodingException: Can not read value at 0 in block
解决一个问题记录一下:spark提交任务,发现任务意外job aborted无法继续跑。根据任务发现是利用sparksql 查询某张表的时候,读parquet出了问题.困扰很久,把程序改了很久,才从网上找到了帖子,希望能够帮到大家.我是内网作业报错信息也是借鉴网上的。spark是1.5.1远古版本附上我参考的帖子如下ERROR: Error while processing statem...
2019-05-24 16:19:33
1693
原创 hdfs-indexer /hbase-indexer向solr创建索引报错解决
我在使用hdfs-indexer向solr创建索引时候,mapreduce已经执行完了,但是到最后出现,其实下面这个报错是从网上扣的,大致报错信息是一致的。我是用hdfs-indexer向solr同步全量索引数据时候报的错。org.apache.solr.client.solrj.impl.HttpSolrClient$RemoteSolrException: Error from server...
2018-12-21 11:21:21
526
转载 spark数据倾斜处理
本篇文章属于转载原文出处https://blog.youkuaiyun.com/lw_ghy/article/details/51419877调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜发生时的现象1、绝大多数task执行得都非常快...
2018-12-13 11:18:53
499
转载 Spark jobhistory日志清理
spark开启history-server之后,app日志会保存在制定的目录下, 若yarn开启日志收集,也需要进行app-logs的自动清理,因为项目组大数据平台经常日志太多,需要做清理,jobhistory中 也会经常出现长时间的load,鉴于此问题采取以下措施解决## yarn日志收集yarn.log-aggregation.retain-seconds = 1209600ya...
2018-09-06 10:44:35
4606
原创 spark记录单个task卡住的,导致作业不结束的问题
实际上是由于数据的倾斜问题,采用reparation将数据重分区就ok了,还有一点可以加入spark推测机制来容错复杂的集群网络环境,可能由于某个单节点存在异常,网络不稳定或是磁盘io满了,使用推测显得尤为重要。以下为常见可调用参数:资源相关参数 (1) mapreduce.map.memory.mb: 一个Map Task可使用的资源上限(单位:MB),默认为1024。如果Map Tas...
2018-08-17 16:04:31
8083
2
原创 记录一些spark缓存中的方法
此为使用者自己选择释放需要的已经缓存的rdd。def unpersistUnuse(rddString: Set[String], sc: SparkContext) = { var persistRdds = sc.getPersistentRDDs persistRdds.foreach(truple =&amp;amp;amp;amp;amp;amp;amp;amp;amp;gt; { val xx = truple._2.toString(...
2018-05-15 10:02:32
1411
原创 记录oracle回写的几个解决方案
由于用的是spark1.5.1的版本,出现诸多想不到的bug,记录下来,供大家参考。首先说下我们的需求,是将hive的表进行回写入oracle,必须使用sparksql这种形式,所以就不考虑sqoop,集群的大数据平台没有sqoop组件。必须按照一定的数据格式精准输出,从oracle跑数时用的什么类型,最后回到oracle是什么类型,并且精度是一致的。 由于大数据平台hive中,将date也...
2018-04-25 18:10:46
1209
原创 记录使用sparksql 写txt,csv等问题
由于是在内网工作无法截图,只是文字记录,见谅!1.生成csv的方法 由于sparksql 1.5的版本导致很多函数是有bug的,经过多次尝试以下是生成csv的正确方法。 mave加入一个特殊的jar包<groupId>com.databricks</groupId><artifactId>spark-csv_2.10</artifact...
2018-04-11 18:54:51
4195
原创 关于sparksql使用hive读写oracale相关操作
在本人项目中涉及到spark相关读写问题,实际上我们项目做的是一个利用sparksql提高传统业务数据的流转速度的项目,使用hive中的数据并利用spark计算将数据回写入oracle。 本人使用的是spark 1.5的版本,内网操作,无法升级。 记录以下问题 1.使用oracle的原数据进行读,写入hive表 val conf=new SparkConf().setMaster(“loc...
2018-04-10 14:22:48
639
原创 记录oracle转sparksql的问题
oracle转sparksql中遇到某些函数转换问题1.listagg 行转列函数 LISTAGG(Item_Category_Name ‘,’) WITHIN GROUP(ORDER BY Item_Category_Name)//oracle 经过多方查询: 使用 CONCAT_WS(“,”,collect_set(Item_Category_Name)) over (od...
2018-03-29 17:35:12
2806
原创 有关于centos下ganglia的安装部署心得
1 Ganglia安装1.1 中心节点的安装epel包的安装:yum install -y epel-release(解决不能yum安装某些安装包的问题)gmetad的安装:yum install -y ganglia-gmetad ganglia-devel gmond的安装:yum install -y ganglia-gmondrrdtool的安装:yum install -y rrdt...
2018-03-14 13:46:00
613
原创 使用Spark sql的shell转换Oracle sql的例子
使用Sparksql的shell转换Oracle的例子//1.创建表 create table AUTO_PAID_CASE_TMP_01 ( branch_company_code VARCHAR(25), policy_no VARCHAR(60), product_code_detail VARCHAR(24),
2018-03-14 11:03:38
781
原创 解决sqoop中出现的某些问题
安装sqoop出现的问题我本人用导sqoop去导入mysql数据并存到hdfs上,标题 ##安装过程中: 使用这篇博客来进行安装, http://www.linuxidc.com/Linux/2016-09/135129.htm出现如下问题1.报错各种set问题,说缺少设置一些东西,例如:解决方法也很简单 把sqoop/bin/configure-sqoop里面的如下两段内容注释
2017-08-24 19:01:34
3013
原创 MD5二次加密的小例子
说到md5加密技术,很多人其实不陌生,但是对于新手而言,可能少有接触的机会,本文就md5进行阐述并附带例子。MD5的全称是Message-Digest Algorithm 5(信息-摘要算法),在90年代初由MIT Laboratory for Computer Science和RSA Data Security Inc的Ronald L. Rivest开发出来,经MD2、MD3和MD4发展而
2017-05-10 20:30:10
2217
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人