
Architecture
文章平均质量分 83
yfk
这个作者很懒,什么都没留下…
展开
-
数据存储一致性
数据存储的一致性模型是存储系统和数据使用者之间的约定。一致性有不同程度,大致如下: 1. 强一致性:更新完成后,任何后续访问都将返回更新过的值。 2. 弱一致性:系统不保证后续访问将返回更新过的值,在那之前要先满足若干条件。通常条件就是经过一段原创 2011-07-24 22:12:55 · 3673 阅读 · 0 评论 -
数据在线服务的一些探索经验
一个新增的数据服务,在选取存储类型时,follow以下原则:1. 优先使用HBase/Redis,HBase/Redis无法支持的查询语义使用Mysql(分页查询,count)2. 小数据量(内存占用<10G量级)或者对查询响应时间要求很高的应用使用Redis(user profile)3. 海量数据使用HBase(用户行为流水/消息)原创 2014-05-15 19:06:06 · 15349 阅读 · 0 评论 -
Hadoop数据传输工具sqoop
概述sqoop是Apache顶级项目,主要用来在Hadoop和关系数据库中传递数据。通过sqoop,我们可以方便的将数据从关系数据库导入到HDFS,或者将数据从HDFS导出到关系数据库。sqoop架构:sqoop架构非常简单,其整合了Hive、Hbase和Oozie,通过map-reduce任务来传输数据,从而提供并发特性和容错。sqoop的进一步发展可以参考:A Ne原创 2013-03-24 19:22:05 · 64278 阅读 · 4 评论 -
用MapReduce做相似度分析
Q:有一批数据(10亿量级),数据内容包括:列类型id INTcontent Stringid为key,全局唯一content为一个句子列之间以\t分割like:1 “互联网够公司的日志无处不在,web日志,js日志,搜索日志,监控日志等等”2 "对于这些日志的离线分析(Hadoop),wget&r原创 2013-12-23 19:32:34 · 15695 阅读 · 1 评论 -
配置管理系统浅析
我们的程序常常有一些配置信息,例如连接的数据库配置、缓存大小、线程数等等。这些配置信息的管理一般有两种方式:a. 配置信息放到文件中,程序启动时导入,或者在程序运行过程中监控文件的修改重新导入配置文件b. 公司或者部门范围内构建统一的配置管理系统,应用通过API获取配置服务。通过配置文件管理配置信息的方式存在一些问题,主要有:1.部署和更新成本高当前一个互联网服务常常部署在多台原创 2013-06-13 21:42:29 · 15823 阅读 · 2 评论 -
Bloom Filter算法及应用
1. 引言问题:有1000瓶药,但是其中有一瓶是有毒的,小白鼠吃了24小时后就会死掉,请问,在24小时找出有毒的药物,最少需要多少只小白鼠?答案是:10只,一只小白鼠可以表示2种状态,2^10可以表示1024种状态分析可参考:http://lzj0470.iteye.com/blog/657579通过二进制向量组来扩展描述的状态,Bloom Filter(BF)算法也是利用这个思想原创 2011-11-08 23:31:01 · 3084 阅读 · 0 评论 -
数据库索引
概念:索引是由用户创建的、能够被修改和删除的、实际存储于数据库中的物理存在;创建索引的目的是使用户能够从整体内容直接查找到某个特定部分的内容。优缺点:一般来说,索引能够提高查询,但是会增加额外的空间消耗,并且降低删除、插入和修改速度分类:1.聚集索引:表数据按照索引的顺序来存储的。2.非聚集索引:表数据存储顺序与索引顺序无关。由于聚集索引表的数据需要按照索引的顺原创 2012-03-14 21:09:02 · 5750 阅读 · 0 评论 -
Gossip算法学习
1. 概述gossip,顾名思义,类似于流言传播的概念,是一种可以按照自己的期望,自行选择与之交换信息的节点的通信方式gossip, or anto-entropy, is an attractive way of replicating state that does not have strong consistency requirements2. 算法描述假设有原创 2011-11-07 16:48:57 · 16661 阅读 · 1 评论 -
Shared nothing architecture简介
1. 概念什么是Shared nothing architecture?wiki:“A shared nothing architecture (SN) is a distributed computing architecture in which each node is independent and self-sufficient, and there is nosingle原创 2011-11-03 14:09:49 · 12593 阅读 · 0 评论 -
Distributed hash table
1. 概念A distributed hash table (DHT) is a class of a decentralized distributed system that provides a lookup service similar to a hash table。 (key,value) pairs are stored in a DHT, and any participat原创 2011-11-17 13:41:38 · 5310 阅读 · 0 评论 -
分布式一致性算法:Paxos (学习总结)
1. 概述Google Chubby 的作者Mike Burrows:“There is only one consensus protocol, and that's Paxos”-all other approaches are just broken versions of Paxos意即:世界上只有一种一致性算法,那就是Paxos(帕克索斯),所有其它一致性算法都是Paxos算法的原创 2011-11-15 14:39:36 · 9215 阅读 · 3 评论 -
大众点评数据平台架构变迁
最近和其他公司的同学对数据平台的发展题做了一些沟通,发现各自遇到的问题都类似,架构的变迁也有一定的相似性。以下从数据&架构&应用的角度对2012.07-2014.12期间大众点评数据平台的架构变迁做一个概括性的总结,希望对还处在数据平台发展初期的同学有一些帮助,欢迎线下沟通。原创 2013-12-18 19:04:37 · 21343 阅读 · 3 评论