
Spark&Hbase
文章平均质量分 76
记录工作中有关使用Spark和Hbase的问题
今天上上签
这个作者很懒,什么都没留下…
展开
-
测试写Hbase的三种不同方法的性能
文章目录背景测试条件结论代码1.PutList2.saveAsNewAPIHadoopDataset3.BulkLoad测试中出现的问题汇总1.Exception in thread “main” java.lang.IllegalArgumentException: Can not create a Path from an empty string2.java.io.IOException: ...原创 2020-03-18 11:45:07 · 1055 阅读 · 0 评论 -
hbase的SingleColumnValueFilter和addColumn的坑
问题:最近在查一张Hbase表时,设定单列过滤器,取time列时间为某一天的数据:filterList.addFilter(new SingleColumnValueFilter(Bytes.toBytes("cf"), Bytes.toBytes("time"), CompareFilter.CompareOp.GREATER_OR_EQUAL, new BinaryComparator(B...原创 2020-04-20 14:51:00 · 1085 阅读 · 0 评论 -
sparkStreaming监听失败task并发详细信息到邮箱
背景:最近开发一个实时项目,项目正常运行,但是会有task失败的情况,如下图:虽然spark有task失败重试机制,这种失败也并不会影响到程序的运行以及最终结果的,但是既然是失败终究是有错误的,作为一名强迫症晚期患者,必须把这刺眼的红色去掉,那么我们就要按照惯例去看日志了。问题:我们需要去task失败的那个节点查看日志,但是问题随之而来,实时任务是不间断的输出日志,我们想要在浏览器打开一...原创 2020-03-11 17:34:18 · 654 阅读 · 0 评论 -
读取hdfs上snappy压缩文件并发送kafka的两种方式速度测试
最近有一个需求,因为第一次做,踩了许多坑,故在此记录一下需求背景:现在hdfs上有一份snappy压缩的文件,要把这份文件中的数据读出来并发送给kafka解决思路平时我90%的时间都是在消费kafka,现在要写入kafka,我承认我第一反应是懵逼的;不过这并难不倒天资聪慧的我,我首先想到的就是用spark去读出数据后,直接发送给kafka;so easy~问题记录Ⅰ、解析json问题我用spark很快的就写好了代码,大概如下:val rdd = spark.read.schema(schem原创 2020-07-21 20:06:36 · 1167 阅读 · 0 评论 -
spark和flink读取csv文件对比
最近总是会有需求要涉及到读取csv文件,以前总是拿到文件就去读,没有仔细去看相关的方法和功能,现在结合最近的需求,记录一下spark和flink读取csv文件的操作。(注:本文内容针对spark2.3.0以及flink1.9.1)spark:本来想自己总结一下,但是这里有位大佬写的很详细,可以直接参考:https://blog.youkuaiyun.com/weixin_42411818/article/details/98734464举个简单的小例子,现在我们有这样一份csv文件我们只想读uuid和ph原创 2020-05-11 11:56:52 · 824 阅读 · 0 评论 -
一次Spark SQL提取数据所遇到的问题
目录需求背景及解决思路问题Ⅰ:csv编码问题问题Ⅱ:shuffle前后的分区问题问题Ⅲ:broadcast join不生效问题Ⅳ:sparksql关于stage的划分需求背景及解决思路boss给了一份csv文件,要求从数仓中的点位表中筛选出csv文件中点位所对应的uuid信息;需求很简单,用spark读取csv文件,然后join数仓的点位表即可,伪代码如下:(csv文件2M,数仓中的点位表100亿数据)... val frame = sparkSession.read.csv(localpath原创 2020-05-09 18:27:01 · 1323 阅读 · 0 评论