大数据
文章平均质量分 57
大数据
INGNIGHT
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
淘宝分布式文件系统TFS设计
对于大文件的存储,client会将大文件切分为多个小文件(通常每个2M)分片,并将每个分片都存储到TFS,得到多个文件名,然后将多个文件名作为新的文件数据存储到TFS,得到一个新的文件名(该文件名与正常的TFS文件有着不同的前缀,以区分其存储的是大文件的分片信息),当用户访问大文件时,client会先读出各个分片对应的TFS文件名信息,再从TFS里读出各个分片的数据,重新组合成大文件。当TFS客户端启动时,会根据appkey从rcserver上获取应用的所有配置信息,根据配置信息来访问TFS的服务;原创 2025-11-21 12:45:42 · 932 阅读 · 0 评论 -
tfs文件系统
tfs主从nameserver节点容错性—源码解读。tfs数据复制策略—源码解读。原创 2024-03-05 17:27:48 · 509 阅读 · 0 评论 -
Map Reduce
原创 2023-08-01 22:58:57 · 225 阅读 · 0 评论 -
Bounded-Buffer
原创 2023-05-25 13:44:49 · 179 阅读 · 0 评论 -
Map Reduce
1.Map Reducer系统是一个Master和Slave的架构,Master控制整个系统流程,Slave完成整个map和reduce的工作。3.由master分配哪些机器作为map哪些机器作为reducer,并分配相应代码。4.master尽量将输入文件等分给map,map读取文件之后,开始执行map工作。6.传输整理,将map计算结果传输reducer,作为redeuce的输入。2.由用户指定有多少个map多少个reduce,并启动相应机器。5.map执行完工作后,将数据写入本地硬盘上。原创 2023-04-29 11:21:58 · 124 阅读 · 0 评论 -
doris计算分析
1.fe-core/src/main/java/org/apache/doris/qe/Coordinator.javapublic void exec() throws Exception {原创 2022-04-06 16:24:03 · 2684 阅读 · 1 评论 -
缓存更新的套路
转载:https://coolshell.cn/articles/17416.html#comments看到好些人在写更新缓存数据代码时,先删除缓存,然后再更新数据库,而后续的操作会把数据再装载的缓存中。然而,这个是逻辑是错误的。试想,两个并发操作,一个是更新操作,另一个是查询操作,更新操作删除缓存后,查询操作没有命中缓存,先把老数据读出来后放到缓存中,然后更新操作更新了数据库。于是,在缓存中的数据还是老的数据,导致缓存中的数据是脏的,而且还一直这样脏下去了。我不知道为什么这么多人用的都是这个逻辑,转载 2020-07-24 16:19:55 · 252 阅读 · 0 评论 -
typeahead
1.查询qps,索引容量2.离线数据流如何建设2.1LogData数据量太大,可以降频2.2DataCollection提取LogData计算高频词汇,例如今天天气,10M2.3数据如何分片, 2.3.1采用consistency hash 2.3.2range方式,需要有服务采取一些策略调度数据,避免某些服务负载2.4数据如何推送到线上: 2.4.1可以离线pipeline方式,推送到线上,每台机器内存double buffer trie,单个sh...原创 2022-01-27 20:08:33 · 1595 阅读 · 0 评论 -
WeChat
原创 2022-01-20 15:42:43 · 161 阅读 · 0 评论 -
push&pull
原创 2022-01-20 11:11:13 · 268 阅读 · 0 评论 -
设计Whats App
设计 WhatsApp2022 年 1 月 3 日星期一上午 9:11这是Ankit Sirmorya的客座帖子。Ankit 担任机器学习主管/高级工程师。亚马逊的机器学习工程师,并领导了亚马逊生态系统的多项机器学习计划。Ankit 一直致力于应用机器学习来解决模棱两可的业务问题并改善客户体验。例如,他创建了一个平台,使用强化学习技术在亚马逊产品页面上试验不同的假设。目前,他在 Alexa Shopping 组织工作,正在开发基于机器学习的解决方案,以向客户发送个性化的重新订购提示..转载 2022-01-16 19:21:55 · 319 阅读 · 0 评论 -
b站whats app
转载 2022-01-16 12:43:22 · 197 阅读 · 0 评论 -
whats app
原创 2022-01-15 23:10:48 · 558 阅读 · 0 评论 -
feed系统
这是一道老题了,也是一道高频题,今天就用这道题来给资深面试官眼中的系统设计一文中答题流程做一个实例。如果你想跟罗辑一起更深入地学习系统设计,有兴趣的同学报名参加爱思备受好评的系统设计集训营以及系统设计模拟面试服务,由作者本人为同学们教学,力求给大家带来最深入的系统设计高频题讲解以及最针对面试实战的技巧解析,帮助同学们举一反三,高效准备面试。同学们不要死记硬背答案,而是体会一下一步步破题的过程。因为面试流程不唯一,真正碰到这道题的时候面试官的 follow-up 会不一样,大家还是要注重积累,转载 2022-01-15 12:46:52 · 359 阅读 · 0 评论 -
五八搜索实时索引实现和重构
假设一个用户查询“java高级工程师”(即查询query),我们需要返回所有包含“java高级工程师”相关的文档(doc)。直观反应就是把所有的文档遍历一遍,在每个doc中查找,并判断其是否包含该query中所有的词,最后返回包含该query的所有doc集合。文档集合比较小的时候,该实现方法是可行的,但如果候选文档集合大小为几千万、几亿(甚至几百亿:如Google),该实现方案就会面临比较大的问题:遍历全部文档做查询匹配,耗时可能是几秒、几十秒甚至更高,对一个在线服务来说是不可接受的。因为搜索服务是需要立刻转载 2021-09-21 22:52:37 · 740 阅读 · 0 评论 -
揭秘微信朋友圈这种信息推流背后的系统设计
1、引言信息推流(以下简称“Feed流”)这种功能在我们手机APP中几乎无处不在(尤其是社交/社群产品中),最常用的就是微信朋友圈、新浪微博等。对Feed流的定义,可以简单理解为只要大拇指不停地往下划手机屏幕,就有一条条的信息不断涌现出来。就像给牲畜喂饲料一样,只要它吃光了就要不断再往里加,故此得名Feed(饲养)。大多数带有Feed流功能的产品都包含两种Feed流:1)一种是基于算法:即动态算法推荐,比如今日头条、抖音短视频; 2)一种是基于关注:即社交/好友关系,比如微信、知乎。例如下图.转载 2021-09-19 17:52:45 · 2311 阅读 · 0 评论 -
微信朋友圈技术之道:三个人的后台团队与每日十亿的发布量
概述截止到 2015 年 7 月,微信每月活跃用户约 5.49 亿,朋友圈每天的发表量(包括赞和评论)超过 10 亿,浏览量超过 100 亿。得益于 4G 网络的发展,以上数据仍有很快的增长,而且相对于 PC 互联网时代,移动互联网时代的峰值要来得更加凶猛。比如,2015 年元月的流量到了平时的 2 倍,而峰值则达到了平时峰值的 2 倍,相当于平时正常流量的 5 倍,这对整个系统的考验是很残酷的。本次分享将简单介绍微信后台团队的开发模式、微信朋友圈的架构以及在性能上的一些工作,供各位参考。团队与技术转载 2021-09-19 15:37:27 · 665 阅读 · 0 评论 -
微信序列号生成器架构设计及演变
一、摘要微信在立项之初,就已确立了利用数据版本号实现终端与后台的数据增量同步机制,确保发消息时消息可靠送达对方手机,避免了大量潜在的家庭纠纷。时至今日,微信已经走过第五个年头,这套同步机制仍然在消息收发、朋友圈通知、好友数据更新等需要数据同步的地方发挥着核心的作用。而在这同步机制的背后,需要一个高可用、高可靠的序列号生成器来产生同步数据用的版本号。这个序列号生成器我们称之为 seqsvr,目前已经发展为一个每天万亿级调用的重量级系统,其中每次申请序列号平时调用耗时 1ms,99.9% 的调用耗时小于 3转载 2021-09-19 15:28:05 · 1869 阅读 · 0 评论 -
亚线性算法概述
原创 2021-08-27 22:47:22 · 320 阅读 · 0 评论 -
连接算法join
原创 2021-08-27 12:20:13 · 182 阅读 · 0 评论 -
大数据基础
原创 2021-02-24 09:31:26 · 165 阅读 · 0 评论 -
追本溯源:字符串及编码
转载:https://zhuanlan.zhihu.com/p/73917931开始先考虑下边的问题。let s = "js"console.log(s.length)s= "亮"console.log(s.length)s = " "console.log(s.length)我们知道 length 就是字符串的字符数,所以输出的依次是 2,1,1,对吗?探索一我们知道,计算机里只能存 0 和 1,换言之,只能存数字,而我们现在在屏幕上看到的文字只是将数字对应到图形而已转载 2020-07-31 10:57:11 · 335 阅读 · 0 评论 -
from py4j.protocol import Py4JError ModuleNotFoundError 错误
from py4j.protocol import Py4JError ModuleNotFoundError: No module named 'py4j'报错了!!!学习林子雨老师的pySpark慕课时,按照给的链接安装时,运行python3 ~/test.py程序发现了from py4j.protocol import Py4JError ModuleNotFoundError: No module named 'py4j'的错误了。vim /etc/profileexport JAVA_H原创 2020-07-18 14:19:48 · 784 阅读 · 0 评论 -
Protocol Buffers数据编码
Protocol Buffers这是要多快好省的建设社会主义啊。理想还是要有的嘛,这里我就来介绍一个向“理想”迈进的GRPC。GRPC首先满足二进制和跨语言这两条,二进制说明压缩效率高,跨语言说明更灵活。但是又是二进制,又是跨语言,这就相当于两个人沟通,你不但说方言,还说缩略语,人家怎么听懂呢?所以,最好双方弄一个协议约定文件,里面规定好双方沟通的专业术语,这样沟通就顺畅多了。对于GRPC来讲,二进制序列化协议是Protocol Buffers。首先,需要定义一个协议文件.proto。我们还原创 2020-07-14 12:05:47 · 429 阅读 · 0 评论 -
想成为架构师,你必须掌握的CAP细节
理论的优点在于清晰简洁、易于理解,但缺点就是高度抽象化,省略了很多细节,导致在将理论应用到实践时,由于各种复杂情况,可能出现误解和偏差,CAP 理论也不例外。如果我们没有意识到这些关键的细节点,那么在实践中应用 CAP 理论时,就可能发现方案很难落地。而且当谈到数据一致性时,CAP、ACID、BASE 难免会被我们拿出来讨论,原因在于这三者都是和数据一致性相关的理论,如果不仔细理解三者之间的差别,则可能会陷入一头雾水的状态,不知道应该用哪个才好。今天,我来讲讲CAP 的具体细节,简单对比一下 ACI转载 2020-07-07 09:28:46 · 282 阅读 · 0 评论 -
CAP,ACID,BASE
一、CAPC(Consistency):一致性,是指任何一个读操作总是能够读到之前完成的写操作的结果,也就是在分布式环境中,多点的数据是一致的,或者说,所有节点在同一时间具有相同的数据A:(Availability):可用性,是指快速获取数据。非故障节点在合理的时间内返回合理的响应(不是错误和超时的响应)P(Tolerance of Network Partition):分区容忍性,是...原创 2019-10-03 21:41:34 · 768 阅读 · 0 评论 -
数据密集型应用系统
《数据密集型应用系统应用设计》:https://book.douban.com/subject/30329536/MIT6.284:https://www.simtoco.com/#/albums/video?id=1000159极客时间:MySQL实战45讲讲主键索引,覆盖索引,数据结构与算法之美讲B树,zookeeper实战与源码剖析将LSM网易云课堂:大数据技术原理与应用,分布式事务攻略leveldb实战:https://search.bilibili.com/all?keyword=原创 2020-07-06 18:01:27 · 1342 阅读 · 1 评论 -
Hive操作
一、Hive DML之加载和导出数据https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DML原创 2020-07-06 13:26:11 · 147 阅读 · 0 评论 -
Hive
http://hive.apache.org/原创 2020-07-03 13:09:20 · 207 阅读 · 0 评论 -
YARN
YARN的基本思想是将资源管理和作业调度/监视的功能拆分为单独的守护程序(resource management and job scheduling/monitoring)。这个想法是拥有一个全局的ResourceManager(RM)和每个应用程序的ApplicationMaster(AM)。应用程序可以是单个作业,也可以是作业的DAG。ResourceManager和NodeManager组成数据计算框架。ResourceManager是在系统中所有应用程序之间仲裁资源的最终权限。...原创 2020-07-02 19:55:04 · 370 阅读 · 0 评论 -
mr复习
1、上课方式基础理论部分——录播实践部分——直播“预习+复习”的模式预习:录播视频复习:直播视频:2、上课纪律(1)空杯心态(2)100%热情投入:至少30次课,时间宝贵(3)坚持不懈,一定要有信心(4)保持互动:1是 0否(5)人之所以痛苦,在于追求错误的东西3、经验目标:找大数据工作方法:找猎头?求职网站?群里小伙伴互相介绍、内推?班主任老师——都属于渠道问题策略:你准备好了么? 准备什么? 1) 简历——硬件:创造机会 2)...原创 2020-07-01 20:53:55 · 235 阅读 · 0 评论 -
MapReduce
原创 2020-06-30 18:02:17 · 160 阅读 · 0 评论 -
HDFS API编程
原创 2020-06-30 13:59:16 · 202 阅读 · 0 评论 -
hadoop简介
一、hadoop特点https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html(1)分布式Hadoop Distributed File System(2)commodity hardware廉价硬件(3)fault-tolerant容错(4)High throughput高吞吐(5)large data sets大数据集合...原创 2020-06-29 17:41:01 · 304 阅读 · 0 评论
分享