- 博客(7)
- 收藏
- 关注
原创 最近工作中遇到的技术之外的问题
我们部门的实习生工作结束,想让我帮他写点工作中的问题,毕竟人家是英语专业的来我们数据部门实习(当时很懵逼),这方面了解的比较少,也不知道写啥,想请我当个枪手_ ,我也不好推辞说一个最近遇到的工作中的问题吧,"口径"问题,即我们对数据结果的要求。大家可能听着很简单,小case,但是这其中的厉害关系,如果没有经历过,可能真的体会不到,但是作为一个数据部门的人员,应该都有经历过。俗话说的好,‘有一千...
2019-12-10 10:32:34
237
原创 mysql在实时场景下自增列无法做到连续的情况
mysql的innodb引擎在使用自增列作为主键的时候 可以大大提升数据库性能,由于业务需要,表中可能存在唯一主键,这就导致在插入数据的时候,由于唯一约束的问题,数据出现重复的情况下插入失败,但是mysql的本质问题,这一次的插入失败也占用一个自增列数字,当下一次插入数据时,造成自增列不连续,比如:id name1 jack2 ...
2019-11-20 11:51:51
195
转载 hbase的优化
AutoFlush通过调用HTable.setAutoFlushTo(false)方法可以将HTable写客户端自动flush关闭,这样可以批量写入数据到HBase,而不是有一条put就执行一次更新,只有当put填满客户端写缓存的时候,才会向HBase服务端发起写请求。默认情况下auto flush是开启的。WAL Flag在HBase中,客户端向集群中的RegionServer提交数据时(...
2019-08-28 22:17:07
233
转载 Elasticsearch的倒排索引
一切设计都是为了提高搜索的性能倒排索引(Inverted Index)也叫反向索引,有反向索引必有正向索引。通俗地来讲,正向索引是通过key找value,反向索引则是通过value找key。先来回忆一下我们是怎么插入一条索引记录的:curl -X PUT “localhost:9200/user/_doc/1” -H ‘Content-Type: application/json’ -d’...
2019-08-28 21:36:35
306
转载 scala的apply用法
Scala中apply的用法Scala中的 apply 方法有着不同的含义, 对于函数来说该方法意味着调用function本身, 以下说明摘自Programming in Scala, 3rd EditionEvery function value is an instance of some class that extends one of several FunctionN traits...
2019-08-27 22:20:55
512
转载 sparkStreaming关于kafka偏移量的管理
SparkStreaming使用checkpoint存在的问题及解决方案sparkstreaming关于偏移量的管理image在 Direct DStream初始化的时候,需要指定一个包含每个topic的每个分区的offset用于让Direct DStream从指定位置读取数据。offsets就是步骤4中所保存的offsets位置读取并处理消息处理完之后存储结果数据用虚线圈存储和提交...
2019-08-26 21:37:08
1334
转载 spark streaming初始化过程
Spark Streaming是一种构建在Spark上的实时计算框架。Spark Streaming应用以Spark应用的方式提交到Spark平台,其组件以长期批处理任务的形式在Spark平台运行。这些任务主要负责接收实时数据流及定期产生批作业并提交至Spark集群,本文要说明的是以下几个功能模块运行前的准备工作。数据接收Job 生成流量控制动态资源伸缩下面我们以WordCount程序为...
2019-08-25 14:56:54
404
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人