
DataMining
文章平均质量分 76
晓风well
A student
展开
-
OLTP与OLAP
联机分析处理 (OLAP) 的概念最早是由关系数据库之父E.F.Codd于1993年提出的,他同时提出了关于OLAP的12条准则。OLAP的提出引起了很大的反响,OLAP作为一类产品同联机事务处理 (OLTP) 明显区分开来。当今的数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-LineAna转载 2013-11-27 10:47:01 · 1200 阅读 · 0 评论 -
分布式文件系统:lease机制
Lease机制是最重要的分布式协议,广泛应用于各种实际的分布式系统中。Lease机制最重要的应用是,判断节点状态。Lease是由颁发者授予的在某一有效期内的承诺。办法者一旦发出lease,则无论接收方是否收到,也无论后续接收方处于何种状态,只要lease未过期,颁发者一定严守承诺;另一方面,接收方在lease的有效期内可以使用颁发者的承诺,则一旦lease过期,接收方一定不能继续使用颁发者的承诺。原创 2013-12-29 11:13:34 · 2587 阅读 · 0 评论 -
中心化副本控制协议:primary-secondary协议
副本控制协议指按特定的协议流程控制副本数据的读写行为,使得副本满足一定的可用性和一致性要求的分布式协议。副本控制协议可以分为两大类“中心化(centralized)副本控制协议”和“去中心化(decentralized)副本控制协议”。中心化副本控制协议的基本思路:由一个中心节点协调副本数据的更新、维护副本之间的一致性。所有副本相关的控制交由中心节点完成,并发控制由中心节点完成,从而简原创 2013-12-29 15:59:39 · 2525 阅读 · 0 评论 -
大数据及下一代基础设施
什么是大数据?对于大数据的概念,这里给出的定义是超出现有数据库系统处理能力的数据。由于过快的数据产生速度,以及规模巨大的数据量,这就要求使用合适的系统来处理它们。大数据的价值主要可以分为两种:数据分析、开发新产品。大数据分析能够揭露消费行为及趋势,如消费者如何受到同龄人的影响。对开发新产品而言,通过组合大量数据所透出的用户行为及群体关系,Facebook能够开发更具个性化的用户体验和独原创 2013-12-24 16:31:54 · 2234 阅读 · 0 评论 -
Brewer的CAP理论
CAP理论是由EricBrewer提出的分布式系统中最重要的理论之一。Brewer指出,在分布式环境中设计和部署应用的时候需要关注3点非常重要的全局因素:一致性(Consistency)、可用性(Availability)、分区(Partition)。CAP理论指出,无法设计一种分布式协议,使得同时完全具备CAP三个属性。用一个例子来解释CAP理论。假设你想在京东买一本刘兵的《Web数原创 2013-12-25 10:53:48 · 2710 阅读 · 0 评论 -
数据仓库和OLAP技术回顾综述
1. Introduction宽泛的讲,数据仓库是一种数据库,它与单位的操作数据库分别维护。数据仓库系统允许将各种应用系统集成在一起,为统一的历史数据分析提供坚实的平台,对信息处理提供支持。Data warehousing is acollection of decision support technologies, aimed at enabling the knowledgework原创 2014-02-10 22:32:04 · 3571 阅读 · 0 评论 -
基于协同过滤构建简单推荐系统
本文只是对协同过滤的一个简单的知识总结,对该方面知识的学习,可参考《推荐系统实践》、《集体智慧编程》。这里并不给出原因,而只是一个该方面知识点的简单应用。通过这些简单的应用再反过来学习相关的知识点,应该能提升很大的兴趣。先谈什么是机器学习:机器学习:将一组数据传递给算法,并由算法推断出与这些数据的属性相关的信息——借助这些信息,算法就能够预测出未来有可能会出现的其他数据。因为几原创 2014-02-15 15:43:55 · 1938 阅读 · 0 评论 -
数据聚类的简单应用
数据聚类data clustering:用来寻找紧密相关的事物,并将其可视化的方法。1. 聚类时常被用于数据量很大(data-intensive)的应用中。2. 聚类是无监督学习(unsupervised learning)的一个例子。无监督学习算法并不利用带有正确答案的样本数据进行“训练”,它们的目的是要在一组数据中找寻某种结构,而这些数据本身并不是我们要找的答案。3. 聚类原创 2014-02-19 15:35:34 · 2395 阅读 · 0 评论 -
人工神经网络
人工神经网络(Artificial Neural Network - ANN)的研究是由视图模拟生物神经系统而激发的。类似于人脑的结构,ANN由一组相互连接的结点和有项链构成。神经网络常用于解决分类问题。感知器:感知器是最简单的神经网络结构,其由两类结点组成:输入节点(用来表示输入属性);一个输出节点(用来提供模型输出)。如下图所示:图1神经网络结构中的结点原创 2014-03-03 16:58:34 · 2636 阅读 · 0 评论