
玩转海量数据
文章平均质量分 76
分享一些常见的大数据应用解决方案,以及个人实践心得。
我先森
shit code
展开
-
一.分布式锁的实现逻辑
1.基于mysql实现分布式锁1.1.创建一张存放锁标志的表格:CREATE TABLE `database_lock` ( `id` BIGINT NOT NULL AUTO_INCREMENT, `lock` varchar(564)NOT NULL COMMENT '锁名称', `description` varchar(1024) NOT NULL DEFAULT "" COMMENT '描述', PRIMARY KEY (`id`), UNIQUE KEY `uiq_idx_lock原创 2022-02-28 18:17:18 · 219 阅读 · 0 评论 -
二.zookeeper web管理工具
https://github.com/alibaba/canal/wiki/Zookeeper-QuickStart原创 2023-02-09 11:29:27 · 626 阅读 · 0 评论 -
kafka 使用thrift序列化对象
而解决这个问题的办法就是采用第三方的支持跨语言的序列化/反序列化框架,所谓的跨语言, 意思就是说,不管你是什么语言生成的对象,那你存入kafka的时候 用我的序列化协议,我帮你序列化, 当你从kafka中获取数据的时候, 也请用我来反序列化。kafka存储的实际上不是python对象也不是java对象,而是thrift自己的数据结构,只不过thrift能将这个结构体转化成python或者是java对象同时也将java或者python转成自己的结构体。因为你的序列化反序列化器都是java语言写的。...原创 2022-08-10 21:13:20 · 938 阅读 · 7 评论 -
thrift
摘要:tong'xin'shuanthrift是一种序列化协议,如何理解序列化,网络数据传输是基于二进制的,二进制是无规则的.那么如何将二进制流识别成我们可以阅读的格式,或者说原创 2021-06-11 16:08:15 · 1665 阅读 · 1 评论 -
二.elasticsearch 为什么合并segment
目录1:优化所需要的空间2:为什么合并segment可以达到优化效果3:优化的时机1:优化所需要的空间segment优化是需要将将多个segment合并成,以减少segment的数量,在新的segment合并完成之前旧的较小的segment是不会删除的,比如说此时你的总磁盘大小是10T ,segment已经占用了7T这个时候进行合并很可能会出问题,导致磁盘不够用,这个问题...原创 2019-05-28 15:22:15 · 3124 阅读 · 1 评论 -
一.Elasticsearch segment (基于luence来详解)
相信很多接触es的同志,在了解到segments的时候只是模糊的知道这是索引文件,也知道refrash和flush,确再说点什么就不知道了,今天我就基于luence来浅谈一下这个到底是个什么东西。 首先搜索引擎,是基于倒排索引来提供搜索功能的,要做到这一点首先就是对输入数据进行分词 提起,建立词项词频,然后将这些信息存储起来,当你搜索的时候给你提供搜索结果。 1:浅谈倒排索引 ...原创 2019-05-28 03:13:01 · 2857 阅读 · 1 评论 -
java获取elasticsearch所有的数据
注意:下面的代码是用的java-high客户端在贴出程序之前先提出几个问题,首先在搜索引擎中任何时候涉及到批量数据处理的时候,都不可能在一次请求中获取到所有的数据,这样是为了节省内存,而且全部拿到也不现实,一般都是分页获取的,也就是说先给你展示,下一页的话通过你的点击会从上次展示的位置往后获取数据,而这个位置你可以理解为位置指针。就这样循环获取循环请求才能真正的将数据全部拿到。下面的程序...原创 2019-03-14 17:47:08 · 12261 阅读 · 7 评论 -
kafka分区数量的判定
ps:越努力越幸运。你要思考一些一些问题,决定吞吐量的因素有哪些?第一点: 数据传输的效率肯定是离不开网络的。第二点: 就越是你数据的产生的速度,如果网络足够了,但是数据产生的速度不够也依旧达不到瓶颈。第三点: 就是你需要达到什么样的效率,这个时候就要将网络性能是否满足你的需求做一个详细的评估了。这就叫做量力而行嘛, 你网络不够还非要要求那么高那就尴尬了。想让马儿跑,不给马儿吃...原创 2019-03-11 17:32:16 · 3807 阅读 · 0 评论