
大数据
文章平均质量分 69
JepsonWong
专注计算机底层,喜欢算法。
展开
-
大数据存储系统(5)--- ZooKeeper
Distrubuted Coordination:ZooKeeper1、概念用于分布式系统中,多个节点协调。Leadership election:选举一个代表负责节点Group membership:哪些节点还活着?发现崩溃等故障Consensus:对一个决策达成一致Zookeeper:Yahoo研发的开源分布式协调系统。是Hadoop/Hbase环境的一部分。目前广原创 2017-05-31 12:25:19 · 740 阅读 · 0 评论 -
大数据运算系统(4)--- 内存计算系统
二、内存系统1、内存数据库(1)起源发展体系结构和硬件技术的巨大发展Memory-resident:可能在buffer pool中。MMDB:可能彻底不用buffer pool,改变了系统内部设计。(2)关键技术Vectorization;处理器加速;压缩(3)MonetDB(4)在商用数据库中的实现2、内存键值系统MemcachedRedi原创 2017-05-30 16:23:26 · 8350 阅读 · 0 评论 -
大数据存储系统(4)--- 图存储系统(Graph Database)
一、图数据模型(1)图的概念G=(V,E):V为顶点的集合,E为边的集合。有向图:边有方向无向图:边没有方向;可以用有向图表达无向图:每条无向边->2条有向边。(2)图数据存储系统存储图顶点和边,提供顶点和边的查询。二、Neo4j(1)概念Native graph database:采用自定义的结构在本地硬盘存储图,而不是存在数据库关系型表中。开源Java实原创 2017-05-29 16:49:34 · 7893 阅读 · 0 评论 -
大数据存储系统(3)--- Document Store
Document Store一、数据模型1、JSON:JavaScript Object NotationJSON是一个低成本的数据交换格式;是JavaScript程序语言标准(1993年)的子集。JSON对应于程序语言中的结构与数组。(1)JSON格式定义Value:基础类型、Object、ArrayObject:{“key1”:value1,……,”keyn”:valu原创 2017-05-29 16:32:32 · 1968 阅读 · 0 评论 -
大数据存储系统(2)--- Key-Value Store
No-SQL:(1)这些系统大部分是由互联网公司研发,研发目标是支持某公司的某类重要的应用。(2)放弃使用关系型系统,转而开发专门的系统以支持目标应用。(3)针对目标应用进行开发,简化了许多关系型系统的功能,以提高系统性能和降低研发成本。不支持完全的SQL,不支持完全的ACID。Key-Value Store:一种分布式数据存储系统。数据形式为,支持Get/Put操作。原创 2017-05-29 11:01:50 · 4094 阅读 · 0 评论 -
大数据存储系统(1)--- 分布式文件系统
分布式文件系统一、分布式系统概念(1)分布式系统类型:Client/Server、P2P(Peer-to-Peer)、Master/Worker(2)故障模型(Failure Model):Fail stop:出现故障时,进程停止/崩溃Fail slow:出现故障时,运行速度变得很慢Byzantine failure:包含恶意攻击(3)CAP定理:三者不可得兼C原创 2017-05-29 01:45:24 · 5592 阅读 · 0 评论 -
行式与列式数据库
行式数据存储:每个记录把所有的列相邻地存放。优点:多个列的值,可以一次I/O都得到;适合于OLTP,同时需要读写同一个记录的多个列的值。但是,对于数据分析操作,只使用少数列。所以,不适合。列式数据存储:每个列产生一个文件,存储所有记录中该列的值。列式存储的原因:数据仓库的分析查询,大部分情况只涉及一个表的少数几列;会读一大部分记录。在这种情况下,行式存储需要读很多无原创 2017-05-28 19:44:40 · 723 阅读 · 0 评论 -
关系型数据库管理系统:事务处理Durability(持久性)的实现
一、目的:Transaction commit后,结果持久有效,crash不消失。二、想法一:在transaction commit时,把所有的修改都写回硬盘。只有当硬盘完成后,才commit。但是,这样会出现正确性问题;如果写多个page,中间掉电的话,Atomicity被破坏了!而且随机写硬盘、等待写完成也存在性能问题。三、解决方案:WAL(Write Ahead Logging)原创 2017-05-28 17:29:09 · 1204 阅读 · 0 评论 -
推荐系统
1. The Utility MatrixIn a recommendation-system application there are two classes of entities, which we shall refer to asusers and items. Users have preferences for certain items, and these pref原创 2017-05-22 17:23:00 · 414 阅读 · 0 评论 -
结构化数据、半结构化数据、非结构化数据
1、概述 结构化数据:(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)。非结构化数据:不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。非结构化数据库是指其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据(如数字、符转载 2017-05-20 16:41:02 · 2870 阅读 · 0 评论 -
复杂的大数据技术栈
提到大数据,很多人可能都听说过4V - Big Volume, Big Velocity, Big Variety, Big Value,大数据从业人员的工作内容也都和这4个V中的某些内容密切相关。相比较传统的数据库技术,大数据的技术栈在过去几年取得非常迅速的发展,尤其是Hadoop和Spark已经构建了一个庞大的技术生态圈。文件系统方面,除了传统的行式存储,还有新的列式存储格式如ORC,原创 2017-05-20 16:19:35 · 5669 阅读 · 0 评论 -
LSH
在数据挖掘中经常需要用到比较两个东西的相似度。下面先主要说一下文档的相似度。 如果是判断两个文档是否完全相同,问题就变得很简单,只要简单地逐字符比较即可。但是在很多情况下并不是这样,比如网站文章的转载,主体内容部分是相同的,但是不同网页本身有自己的Logo、导航栏、版权声明等等,不能简单地直接逐字符比较。定义两个集合S,T的Jaccard相似度: Sim(S,T) = |S,T的交原创 2017-05-11 21:24:44 · 1197 阅读 · 0 评论 -
大数据运算系统(3)--- MapReduce+SQL
一、MapReduce+SQL系统1、Hive(蜂巢):管理和处理结构化数据;在Hadoop基础上实现;提供类似SQL的HiveQL语言。数据存储在HDFS上。HDFS目录:/usr/hive/warehouse/Table:一个单独的hdfs目录。/hdfs/hive/warehouse/表名Table可以进一步划分为PartitionPartition可以进一步划分为BucketP原创 2017-05-10 12:16:50 · 561 阅读 · 0 评论 -
大数据运算系统(2)--- 图计算系统
一、同步图运算系统1、图算法(1)PageRank顶点:网页边:超链接(2)计算方法初始化:所有顶点的PageRank为1/N迭代:用公式迭代直至收敛迭代公式:Ru:所求u的PageRankRv:顶点v的PageRankLv:顶点v的出度(出边的条数)Bu:顶点u的入邻居集合d:damping factorN:总顶点个数(3)由于N很原创 2017-05-10 12:14:46 · 3826 阅读 · 0 评论 -
大数据运算系统(1)--- MapReduce
一、MapReduce/Hadoop简介:MapReduce是目前云计算中最广泛使用的计算模型,由Google提出。Hadoop是MapReduce的一个开源实现。1、编程模型(1)整体思路程序员写串行程序由系统完成并行分布式执行(2)数据模型:数据由一条一条的记录组成;记录之间是无序的;每一条记录有一个key和一个value;key:可以不唯一;key与val原创 2017-04-14 16:05:59 · 595 阅读 · 0 评论