
大数据
文章平均质量分 95
K. Bob
多读书,多睡觉;少吃零食,多运动。
展开
-
Alibaba(实习准备)—SOFARPC学习总结
目录SOFARPC框架SOFARPC框架 在蚂蚁金服的分布式技术体系下,大量的技术产品(非网关类产品),都需要在内网,进行节点间通信。BOLT 提供了优秀的通信协议与通信框架,在 BOLT 的基础上,研发了自己的 RPC 框架,提供了负载均衡,流量转发,链路追踪,链路数据透传,故障剔除等基础能力。 RPC框架应该包含的几个部分:User、User-stub、RPC-Runtime、Server-stub、Server。当 Client 想发起一个远程调用时,实际是通过本地调用 Client-stu原创 2021-04-14 11:34:21 · 1597 阅读 · 2 评论 -
云架构
目录云服务层云管理层云的4种模式 如上图所示云架构共分为服务和管理这两大部分。 在服务方面,主要以提供用户基于云的各种服务为主,共包含三个层次:其一是Software as a Service软件即服务,简称SaaS,这层的作用是将应用主要以基于Web的方式提供给客户;其二是Platform as a Service平台即服务,简称PaaS,这层的作用是将一个应用的开发和部署平台作为服务提供给用户;其三是Infrastructure as a Service基础架构即服务,简称IaaS,这层的作用原创 2021-04-12 22:57:05 · 4494 阅读 · 2 评论 -
LevelDB
目录LevelDB基础读写数据SSTable文件Cache版本控制LevelDB基础 LevelDB是Google开源的持久化KV单机数据库,具有很高的随机写,顺序读/写性能,但是随机读的性能很一般,即LevelDB很适合应用在查询较少,而写很多的场景。LevelDB应用了LSM (Log Structured Merge) 策略,lsm_tree对索引变更进行延迟及批量处理,并通过一种类似于归并排序的方式高效地将更新迁移到磁盘,降低索引插入开销。LevelDB具有以下特点和限制:特点:1、key原创 2021-04-09 11:25:29 · 391 阅读 · 0 评论 -
分布式系统设计中关于数据一致性的问题
分布式系统设计中关于数据一致性的问题 用户在京东上下了一个订单,发现自己在京东的账户里面有余额,然后使用余额支付,支付成功之后,订单状态修改为支付成功,然后通知仓库发货。假设订单系统,支付系统,仓库系统是三个独立的应用,是独立部署的,系统之间通过远程服务调用。订单的有三个状态:I:初始 P:已支付 W:已出库,订单金额100, 会员帐户余额200。如果整个流程比较顺利,正常情况下,订单的状态...原创 2019-11-26 08:41:38 · 809 阅读 · 0 评论 -
TopK问题
海量数据中寻找TopK问题Top K问题介绍Top K问题举例及解答Top K问题介绍 所谓的Top K问题:在海量数据中找出出现频率最好的前K个数,或者从海量数据中找出最大的前K个数。例如,在搜索引擎中,统计搜索最热门的10个查询词/在歌曲库中统计下载最高的前10首歌等。针对Top K问题,通常方案是分治+Trie树/Hash+小顶堆,即先将数据集按照Hash方法分解成多个小数据集,然后使...原创 2019-12-03 21:44:43 · 1117 阅读 · 0 评论 -
海量数据面试题
【1】给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?方案1:可以估计每个文件的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。遍历文件a,对每个url求取hash(url)%1000,然后根据所取得的值将url分别存储到1000个小文件(记为a0,a1,a2…...原创 2020-02-06 14:54:14 · 366 阅读 · 0 评论 -
Sqoop底层工作原理
目录Sqoop简介Sqoop架构Sqoop导入底层工作原理Sqoop导出底层工作原理Sqoop简介 Sqoop旨在协助RDBMS与Hadoop之间进行高效的大数据交流。可以把关系型数据库的数据导入到 Hadoop 与其相关的系统 (如HBase和Hive)中;同时也可以把数据从 Hadoop 系统里抽取并导出到关系型数据库里。 Sqoop是一个在结构化数据和Hadoop之间进行批量数据迁移的工具,结构化数据可以是MySQL、Oracle等RDBMS。Sqoop底层用MapReduce程序实现抽取、原创 2020-05-18 16:26:56 · 4426 阅读 · 0 评论 -
分布式一致性协议
分布式一致性是保证主本与副本,以及副本之间的数据一致的问题。一致性协议:Paxos 如果主节点发生故障,那么备节点就会提议自己成为主节点。因为会存在网络分区的缘故,所以就会有多个备节点提议自己成为主节点并且提议的时间可能也是不相同的,会存在先后顺序。那么 Paxos 协议就用来保证,有多个提交协议的时候且顺序不同时,如何选举出唯一的主节点。只有一个提议者(1) 提议者发送请求给接受者,接...原创 2020-04-30 19:46:20 · 415 阅读 · 0 评论 -
列式存储与行式存储
列式存储与行式存储区别 目前大数据存储有两种方案可供选择:行存储(Row-Based)和列存储(Column-Based)。大数据时代大部分的查询模式决定了列式存储优于行式存储。两者的区别在于如何组织表:Ø Row-based storage storesatable in a sequence of rows.Ø Column-based storage storesatable i...原创 2019-12-10 00:08:38 · 1525 阅读 · 0 评论 -
PV、UV、IP
PV值 PV(page view)即页面浏览量或点击量,是衡量一个网站或网页用户访问量。PV值是所有访问者在0点到24点内看了某个网站多少个页面或某个网页多少次。PV是指页面刷新的次数,每一次页面刷新,就算做一次PV流量。 度量方法就是从浏览器发出一个对网络服务器的请求(Request),网络服务器接到这个请求后,会将该请求对应的一个网页(Page)发送给浏览器,从而产生了一个PV。那么在...原创 2020-04-09 20:44:42 · 200 阅读 · 0 评论 -
数据一致性
大数据常用组件中的数据一致性问题HadoopNameNode保证元数据的一致性校验和HA高可用冗余副本机架感知心跳机制安全模式校验和回收站元数据保护快照机制SparkKafkaZooKeeperHBaseStormHadoop HDFS作为分布式文件系统在分布式环境下如何保证数据一致性。HDFS中,存储的文件将会被分成若干的大小一致的block分布式地存储在不同的机器上,需要NameNode...原创 2020-01-10 10:08:20 · 566 阅读 · 0 评论 -
元数据管理
元数据管理元数据管理平台管什么元数据管理相关系统方案介绍 元数据MetaData狭义的解释是用来描述数据的数据,广义的来看,除了业务逻辑直接读写处理的那些业务数据,所有其他用来维持整个系统运转所需的信息/数据都可以叫作元数据。比如数据表格的Schema信息,任务的血缘关系,用户和脚本/任务的权限映射关系信息等等。 管理这些附加MetaData信息的目的,一方面是为了让用户能够更高效的挖掘和...转载 2019-12-04 12:34:46 · 935 阅读 · 0 评论