- 博客(41)
- 收藏
- 关注

原创 Flink1.9系列-StreamingFileSink vs BucketingSink篇
Flink1.9系列-StreamingFileSink vs BucketingSink篇详细全面的从demo代码和源码层面剖析和解释了为什么Flink新版本的StreamingFileSink写hdfs会时常出问题
2019-09-16 22:16:17
6748

原创 Flink1.9系列-CDH版本源码编译篇
Flink重大版本发布在阿里开源并贡献Blink至社区以后,大家都在等待社区版和Blink版本什么时候能merge到一起,让劳苦大众也体验一把飞翔的感觉!终于,它来啦,就在2019年8月,Flink社区发布了1.9版本,据说更改了150万行代码,所以毫无犹豫直接把Flink1.9使用到公司的项目中!源码下载登录github的flink项目:Flink1.9 release版本直接点击下载...
2019-08-26 15:46:12
2954
6

原创 利用spark读取phoenix(phoenix-spark)
为何不是jdbc访问phoenix?具体原因参照phoenix官网地址:(https://phoenix.apache.org/phoenix_spark.html)为何不是官网提倡的访问方式?官网提倡:import org.apache.spark.SparkContextimport org.apache.spark.sql.SQLContextimport org.apache....
2019-04-19 13:08:56
6883
4
原创 pymysql windows路径入库指南
问题在使用pymysql连接mysql以后,在insert带有反斜杠的字符串时候,入库后会发现反斜杠丢失;解决方案from pymysql import escape_string然后在构造data的时候用escape_string(col)将含有反斜杠的字段进行转义再录入...
2021-07-15 16:26:26
205
原创 PySpark访问MySQL失败:java.lang.ClassNotFoundException: com.mysql.jdbc.Driver
PySpark访问MySQL失败:java.lang.ClassNotFoundException: com.mysql.jdbc.Driver
2020-06-06 13:08:40
4491
8
原创 30天搞定spark源码系列-rdd dataset dataframe的区别
深入理解spark rdd dataframe dataset的区别和共同点
2020-05-28 17:53:15
401
原创 30天搞定spark源码系列-scheduler-运行模式篇
阅读这篇文章,你应该得到面试中有可能会问到的几个问题的答案:spark的运行模式有几种?这几种运行模式分别有什么差别思路其实简单使用过spark的童鞋们都应该知道spark的运行模式就是这几种,一些人也能大致说出不同运行模式的差别,这里我们从源码的角度分析一下运行模式的不同会引起什么样的任务调度local模式1、定义spark的local模式是在本地起多个Thread,每个thread相当于一个executor,来模拟spark的并行运行模式,在实际项目中常用的有两种写法:local
2020-05-18 17:28:42
407
原创 python连接hive步骤(不出错版)
环境redhat7.2、anaconda4.3、python3.5安装python连接hive的依赖包yum install gcc python-devel libsmbclient-devel openldap-devel zlib-devel libjpeg-turbo-devel libtiff-devel freetype-devel libwebp-devel lcms...
2019-02-21 15:51:53
1685
原创 HBase大并发业务下的参数优化
暂时先记录一下,后续再整理:1、hbase.ipc.server.read.threadpool.size=1002、hbase.hstore.compactionThreshold=103、hbase.hstore.blockingStoreFiles=304、hbase.regionserver.handler.count=100...
2019-01-10 14:39:49
1160
原创 hbase HexStringSplit预分区,spark通过bulkload入数据
hbase建表语句create 'test',{NAME=>'CF_1',COMPRESSION=>'SNAPPY'},{NUMREGIONS => 30, SPLITALGO => 'HexStringSplit'}bulk load 数据到上面建的表1、自定义spark的partitioner函数,使得rdd的分区和hbase hfile要求的region分区...
2018-12-27 17:11:12
3557
原创 Hbase常用错误记录
1、Call exception, tries=10, retries=35, started=48631 ms ago, cancelled=false, msg=解决方案:检查 metrics-core jar包是否在$SPARK_HOME/jars下面拥有正确的版本,如果不确定版本是否正确,建议直接覆盖...
2018-12-26 16:24:32
469
原创 Spark常用错误记录
1、org.apache.spark.shuffle.FetchFailedException: Failed to connect当出现这个错误的时候,绝大部分原因是spark连接executor超时了,解决方案:在spark-submit脚本中增加:--conf spark.core.connection.ack.wait.timeout=600s...
2018-12-24 17:59:25
454
原创 phoenix使用心得
1、phoenix中没有union,只有union all,但是我们在使用的时候,不必要担心数据重复问题,因为phoenix在写入数据时,其实操作的是hbase,写的hfile文件,而hbase 有rowkey的概念,如果rowkey相同,则会覆盖掉。2、phoenix在建表的时候,使用SALT_BUCKETS=N,达到数据散列话,但是在upsert的时候,phoenix可以自动在rowkey前...
2018-12-14 16:24:58
1633
原创 bulkload混合使用hbase、phoenix的问题总结
bulkload 批量入数据使用spark生成hfile,然后将hfile bulkload进hbase中hbase 表与phoenix 表映射问题1、直接在phoenix中创建表,需要在hbase-site.xml中配置参数2、在hbase中创建表,然后在phoenix中创建同名表(table or view),这样做的话,必须是hbase表数据已灌输完成create 'hzj','i...
2018-11-29 16:26:11
582
原创 Phoenix查看表是否存在
Phoenix查看表是否存在程序中,我们有时候需要判断phoenix中一张表是否存在,需要怎么做呢?phoenix中表或者schema的信息都会存储在SYSTEM.CATALOG中sqlline.py命令行!tablejdbc方式select * from SYSTEM.CATALOG;...
2018-11-23 17:57:16
1742
原创 HBase 删除指定column的所有数据
HBase 删除指定column的所有数据背景最近由于项目改版更新,原来存储在Hbase表中的某一列的数据需要全部更新,但是更新时需要每天去定时计算,而且第二天的数据需要用到前面好几天的历史数据,故需要将原来的这一列全部清空 As we know, during table creation we would define only the column family not ...
2018-06-29 16:10:35
7837
2
原创 hive进阶
hive中易忽略知识点记录 说明:hive作为大数据分析和存贮中,搭建数据仓库最好的几个组件来说,无论是对于数据存贮(典型的hadoop生态圈的分布式文件存贮类型),还是说对于满足数据分析中要求的快速获取不同维度的数据,hive都扮演着不可忽略的角色hive基本操作 对于hive中的基本操作,如:新建数据库、新建表以及基本的hivesql这些操作,对于熟悉SQL的基本操作的童鞋,这部分应
2017-11-29 16:39:46
356
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人