枫叶的落寞-优快云博客

原创 Flink1.9系列-StreamingFileSink vs BucketingSink篇

Flink1.9系列-StreamingFileSink vs BucketingSink篇详细全面的从demo代码和源码层面剖析和解释了为什么Flink新版本的StreamingFileSink写hdfs会时常出问题

2019-09-16 22:16:17 6748

原创 Flink1.9系列-Flink on Yarn配置篇

Flink on yarn模式运行任务时，flink本地的一些配置事项

2019-08-28 18:37:30 3156

原创 Flink1.9系列-CDH版本源码编译篇

Flink重大版本发布在阿里开源并贡献Blink至社区以后，大家都在等待社区版和Blink版本什么时候能merge到一起，让劳苦大众也体验一把飞翔的感觉！终于，它来啦，就在2019年8月，Flink社区发布了1.9版本，据说更改了150万行代码，所以毫无犹豫直接把Flink1.9使用到公司的项目中！源码下载登录github的flink项目：Flink1.9 release版本直接点击下载...

2019-08-26 15:46:12 2954 6

原创利用spark读取phoenix(phoenix-spark)

为何不是jdbc访问phoenix？具体原因参照phoenix官网地址：(https://phoenix.apache.org/phoenix_spark.html)为何不是官网提倡的访问方式？官网提倡：import org.apache.spark.SparkContextimport org.apache.spark.sql.SQLContextimport org.apache....

2019-04-19 13:08:56 6883 4

原创 pymysql windows路径入库指南

问题在使用pymysql连接mysql以后，在insert带有反斜杠的字符串时候，入库后会发现反斜杠丢失；解决方案from pymysql import escape_string然后在构造data的时候用escape_string(col)将含有反斜杠的字段进行转义再录入...

2021-07-15 16:26:26 205

原创 Flink基础系列-DataSet广播变量

flink DataSet广播变量

2021-03-31 11:19:40 405

原创 pyspark dataframe 读写MySQL

pyspark dataframe 读写MySQL

2020-06-08 11:48:53 832

原创大数据架构设计-lambda、kappa、以及delta lake详解

大数据架构设计-lambda、kappa、以及delta lake详解

2020-06-07 20:03:41 1547

原创成为一个大数据大牛需要掌握的知识树

成为一个大数据大牛都需要掌握哪些知识

2020-06-07 17:54:12 593

原创 PySpark访问MySQL失败：java.lang.ClassNotFoundException: com.mysql.jdbc.Driver

PySpark访问MySQL失败：java.lang.ClassNotFoundException: com.mysql.jdbc.Driver

2020-06-06 13:08:40 4491 8

原创 30天搞定spark源码系列-rdd dataset dataframe的区别

深入理解spark rdd dataframe dataset的区别和共同点

2020-05-28 17:53:15 401

原创 30天搞定spark源码系列-Job，stage，task区别

深入理解spark高频面试题-Job，stage，task的区别

2020-05-27 17:42:04 551

原创 30天搞定spark源码系列-scheduler-运行模式篇

阅读这篇文章，你应该得到面试中有可能会问到的几个问题的答案：spark的运行模式有几种？这几种运行模式分别有什么差别思路其实简单使用过spark的童鞋们都应该知道spark的运行模式就是这几种，一些人也能大致说出不同运行模式的差别，这里我们从源码的角度分析一下运行模式的不同会引起什么样的任务调度local模式1、定义spark的local模式是在本地起多个Thread，每个thread相当于一个executor，来模拟spark的并行运行模式，在实际项目中常用的有两种写法：local

2020-05-18 17:28:42 407

原创 30天搞定spark源码系列-RDD番外篇-shuffledRDD

spark源码番外篇-带领你深刻理解spark shuffle的原理

2020-05-16 16:05:52 1210

原创 30天搞定spark源码系列-RDD篇

看源码为了更好的使用，不要陷入源码中！不要陷入源码中！不要陷入源码中！

2020-05-15 18:23:50 343

原创 Flink生态系列-PyFlink篇

敬请期待。。。

2020-05-15 15:25:02 436 3

原创 Flink生态系列-机器学习

敬请期待。。。

2020-05-07 14:24:59 335

原创 Flink生态系列-图计算篇

敬请期待。。。

2020-05-07 14:24:20 1279

原创 Flink生态系列-CEP篇

敬请期待。。。

2020-05-07 14:23:44 336

原创 Flink基础系列-Runtime网络篇

敬请期待。。。

2020-05-07 14:23:02 262

原创 Flink基础系列-Runtime容错篇

敬请期待。。。

2020-05-07 14:22:32 142

原创 Flink基础系列-RuntimeFailover篇

敬请期待。。。

2020-05-07 14:21:54 274 1

原创 Flink基础系列-Runtime执行篇

敬请期待。。。

2020-05-07 14:21:21 208

原创 Flink基础系列-Runtime资源管理篇

敬请期待。。。

2020-05-07 14:20:51 150

原创 Flink基础系列-Runtime调度篇

敬请期待

2020-05-07 14:19:59 231

原创 Flink基础系列-SQL篇

敬请期待。。。

2020-05-07 14:18:49 306

原创 Flink1.9系列-connnector-redis篇

flink-connector-redis提取addtionalKey

2020-02-17 11:20:50 1754

原创 python连接hive步骤（不出错版）

环境redhat7.2、anaconda4.3、python3.5安装python连接hive的依赖包yum install gcc python-devel libsmbclient-devel openldap-devel zlib-devel libjpeg-turbo-devel libtiff-devel freetype-devel libwebp-devel lcms...

2019-02-21 15:51:53 1685

原创 HBase大并发业务下的参数优化

暂时先记录一下，后续再整理：1、hbase.ipc.server.read.threadpool.size=1002、hbase.hstore.compactionThreshold=103、hbase.hstore.blockingStoreFiles=304、hbase.regionserver.handler.count=100...

2019-01-10 14:39:49 1160

原创 hbase HexStringSplit预分区，spark通过bulkload入数据

hbase建表语句create 'test',{NAME=&gt;'CF_1',COMPRESSION=&gt;'SNAPPY'},{NUMREGIONS =&gt; 30, SPLITALGO =&gt; 'HexStringSplit'}bulk load 数据到上面建的表1、自定义spark的partitioner函数，使得rdd的分区和hbase hfile要求的region分区...

2018-12-27 17:11:12 3557

原创 Hbase常用错误记录

1、Call exception, tries=10, retries=35, started=48631 ms ago, cancelled=false, msg=解决方案：检查 metrics-core jar包是否在$SPARK_HOME/jars下面拥有正确的版本，如果不确定版本是否正确，建议直接覆盖...

2018-12-26 16:24:32 469

原创 Spark常用错误记录

1、org.apache.spark.shuffle.FetchFailedException: Failed to connect当出现这个错误的时候，绝大部分原因是spark连接executor超时了，解决方案：在spark-submit脚本中增加：--conf spark.core.connection.ack.wait.timeout=600s...

2018-12-24 17:59:25 454

原创 phoenix使用心得

1、phoenix中没有union，只有union all，但是我们在使用的时候，不必要担心数据重复问题，因为phoenix在写入数据时，其实操作的是hbase，写的hfile文件，而hbase 有rowkey的概念，如果rowkey相同，则会覆盖掉。2、phoenix在建表的时候，使用SALT_BUCKETS=N，达到数据散列话，但是在upsert的时候，phoenix可以自动在rowkey前...

2018-12-14 16:24:58 1633

原创 bulkload混合使用hbase、phoenix的问题总结

bulkload 批量入数据使用spark生成hfile，然后将hfile bulkload进hbase中hbase 表与phoenix 表映射问题1、直接在phoenix中创建表，需要在hbase-site.xml中配置参数2、在hbase中创建表，然后在phoenix中创建同名表（table or view），这样做的话，必须是hbase表数据已灌输完成create 'hzj','i...

2018-11-29 16:26:11 582

原创 Phoenix查看表是否存在

Phoenix查看表是否存在程序中，我们有时候需要判断phoenix中一张表是否存在，需要怎么做呢？phoenix中表或者schema的信息都会存储在SYSTEM.CATALOG中sqlline.py命令行!tablejdbc方式select * from SYSTEM.CATALOG;...

2018-11-23 17:57:16 1742

原创 HBase 删除指定column的所有数据

HBase 删除指定column的所有数据背景最近由于项目改版更新，原来存储在Hbase表中的某一列的数据需要全部更新，但是更新时需要每天去定时计算，而且第二天的数据需要用到前面好几天的历史数据，故需要将原来的这一列全部清空 As we know, during table creation we would define only the column family not ...

2018-06-29 16:10:35 7837 2

原创 hive进阶

hive中易忽略知识点记录说明：hive作为大数据分析和存贮中，搭建数据仓库最好的几个组件来说，无论是对于数据存贮（典型的hadoop生态圈的分布式文件存贮类型），还是说对于满足数据分析中要求的快速获取不同维度的数据，hive都扮演着不可忽略的角色hive基本操作对于hive中的基本操作，如：新建数据库、新建表以及基本的hivesql这些操作，对于熟悉SQL的基本操作的童鞋，这部分应

2017-11-29 16:39:46 356 1

空空如也

空空如也