海岳开襟-优快云博客

原创最近工作中遇到的技术之外的问题

我们部门的实习生工作结束，想让我帮他写点工作中的问题，毕竟人家是英语专业的来我们数据部门实习（当时很懵逼），这方面了解的比较少，也不知道写啥，想请我当个枪手_ ，我也不好推辞说一个最近遇到的工作中的问题吧，"口径"问题，即我们对数据结果的要求。大家可能听着很简单，小case，但是这其中的厉害关系，如果没有经历过，可能真的体会不到，但是作为一个数据部门的人员，应该都有经历过。俗话说的好，‘有一千...

2019-12-10 10:32:34 275

原创 mysql在实时场景下自增列无法做到连续的情况

mysql的innodb引擎在使用自增列作为主键的时候可以大大提升数据库性能，由于业务需要，表中可能存在唯一主键，这就导致在插入数据的时候，由于唯一约束的问题，数据出现重复的情况下插入失败，但是mysql的本质问题，这一次的插入失败也占用一个自增列数字，当下一次插入数据时，造成自增列不连续，比如： id name 1 jack 2 ...

2019-11-20 11:51:51 223

转载 hbase的优化

AutoFlush 通过调用HTable.setAutoFlushTo(false)方法可以将HTable写客户端自动flush关闭，这样可以批量写入数据到HBase，而不是有一条put就执行一次更新，只有当put填满客户端写缓存的时候，才会向HBase服务端发起写请求。默认情况下auto flush是开启的。 WAL Flag 在HBase中，客户端向集群中的RegionServer提交数据时（...

2019-08-28 22:17:07 261

转载 Elasticsearch的倒排索引

一切设计都是为了提高搜索的性能倒排索引（Inverted Index）也叫反向索引，有反向索引必有正向索引。通俗地来讲，正向索引是通过key找value，反向索引则是通过value找key。先来回忆一下我们是怎么插入一条索引记录的： curl -X PUT “localhost:9200/user/_doc/1” -H ‘Content-Type: application/json’ -d’ ...

2019-08-28 21:36:35 335

转载 scala的apply用法

Scala中apply的用法 Scala中的 apply 方法有着不同的含义, 对于函数来说该方法意味着调用function本身, 以下说明摘自Programming in Scala, 3rd Edition Every function value is an instance of some class that extends one of several FunctionN traits...

2019-08-27 22:20:55 559

转载 sparkStreaming关于kafka偏移量的管理

SparkStreaming使用checkpoint存在的问题及解决方案 sparkstreaming关于偏移量的管理 image 在 Direct DStream初始化的时候，需要指定一个包含每个topic的每个分区的offset用于让Direct DStream从指定位置读取数据。 offsets就是步骤4中所保存的offsets位置读取并处理消息处理完之后存储结果数据用虚线圈存储和提交...

2019-08-26 21:37:08 1371

转载 spark streaming初始化过程

Spark Streaming是一种构建在Spark上的实时计算框架。Spark Streaming应用以Spark应用的方式提交到Spark平台，其组件以长期批处理任务的形式在Spark平台运行。这些任务主要负责接收实时数据流及定期产生批作业并提交至Spark集群，本文要说明的是以下几个功能模块运行前的准备工作。数据接收 Job 生成流量控制动态资源伸缩下面我们以WordCount程序为...

2019-08-25 14:56:54 441

HB_PRI的博客