
大数据
ronmy
这个作者很懒,什么都没留下…
展开
-
hive (数据仓库工具) 基本概念
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。转载 2017-03-05 12:52:24 · 1151 阅读 · 0 评论 -
Storm (分布式的、容错的实时流式计算系统) 基础概念
Storm为分布式实时计算提供了一组通用原语,可被用于“流处理”之中,实时处理消息并更新数据库。这是管理队列及工作者集群的另一种方式。 Storm也可被用于“连续计算”(continuous computation),对数据流做连续查询,在计算时就将结果以流的形式输出给用户。它还可被用于“分布式RPC”,以并行的方式运行昂贵的运算。转载 2017-03-05 14:35:09 · 5324 阅读 · 0 评论 -
Spark (大规模数据处理而设计的快速通用的计算引擎, 与MapReduce类似 ) 基础概念
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。转载 2017-03-05 14:41:02 · 5551 阅读 · 0 评论 -
flume (日志收集系统) 基础概念
Flume是一个分布式、可靠、和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。转载 2017-03-05 14:45:19 · 2676 阅读 · 0 评论 -
Kafka (一种高吞吐量的分布式发布订阅消息系统) 基础概念
Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。 对于像Hadoop的一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消费。转载 2017-03-05 14:51:04 · 4248 阅读 · 0 评论 -
Lambda (系统架构原则:批处理层,服务层和速度层) 基础概念
Lambda系统架构定义了一套明确的架构原则,如果要建立一套强大的和可扩展的数据系统,必须服从上面的公式。Lambda基于下列原则:1.人为容错性human fault-tolerance – 系统易数据丢失或数据损坏,大规模时可能是不可挽回的。2.数据不可变性data immutability – 数据存储在它的最原始的形式不变的,永久的。3.重新计算recomputation – 因为上面两个原则,运行函数重新计算结果是可能的。Lambda架构是由三层组成:批处理层,服务层和速度层转载 2017-03-05 14:58:57 · 3385 阅读 · 0 评论 -
elasticsearch (基于Lucene的搜索服务器,分布式,restful接口) 基础概念
ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。转载 2017-03-05 15:07:38 · 2535 阅读 · 0 评论 -
Thrift Server 基础概念
Thrift为服务器端提供了多种工作模式,本文中将涉及以下5中工作模式:TSimpleServer、TNonblockingServer、THsHaServer、TThreadPoolServer、TThreadedSelectorServer,转载 2017-03-05 15:14:24 · 1725 阅读 · 0 评论 -
hadoop 2.7.1安装和配置
一、安装环境 硬件:虚拟机 操作系统:Centos 6.4 64位 IP:192.168.241.128主机名:admin安装用户:root二、安装JDK 安装JDK1.7或者以上版本。这里安装jdk1.7.0_79。 下载地址:http://www.oracle.com/technetwork/java/javase/downloads/index.html转载 2017-04-21 18:18:13 · 903 阅读 · 0 评论 -
Kafka+Storm+HDFS整合实践
http://shiyanjun.cn/archives/934.html在基于Hadoop平台的很多应用场景中,我们需要对数据进行离线和实时分析,离线分析可以很容易地借助于Hive来实现统计分析,但是对于实时的需求Hive就不合适了。实时应用场景可以使用Storm,它是一个实时处理系统,它为实时处理类应用提供了一个计算模型,可以很容易地进行编程处理。为了统一离线和实时计算,一般情转载 2017-04-21 18:19:23 · 541 阅读 · 0 评论 -
druid (JDBC组件,为监控而生的数据库连接池) 基础概念
Druid是一个JDBC组件,它包括三部分: DruidDriver 代理Driver,能够提供基于Filter-Chain模式的插件体系。 DruidDataSource 高效可管理的数据库连接池。 SQLParser转载 2017-03-05 14:30:31 · 1645 阅读 · 0 评论 -
sqoop (Hadoop(Hive)与传统的数据库(mysql..)间进行数据的传递工具) 基础概念
Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sqoop独立成为一个Apache项目。转载 2017-03-05 14:21:31 · 2032 阅读 · 0 评论 -
Hcatalog (表和底层数据管理统一服务平台) 基础概念
HCatalog屏蔽了底层数据存储的位置格式等信息,为上层计算处理流程提供统一的,共享的metadata。 并且将数据以表的形式呈现给用户(如Pig, MR, Hive, Streaming..),用户只需提供表名就可以访问底层数据,并不需要关心底层数据的位置,模式等信息。转载 2017-03-05 14:16:50 · 3725 阅读 · 0 评论 -
Hadoop (海量数据存储及计算) 基本概念
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS和MapRed转载 2017-03-05 13:06:49 · 19503 阅读 · 1 评论 -
nutch (全文搜索和Web爬虫) 基础概念
Nutch 是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。转载 2017-03-05 13:13:54 · 2556 阅读 · 0 评论 -
MapReduce (并行运算编程模型) 基础概念
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。转载 2017-03-05 13:25:00 · 10686 阅读 · 0 评论 -
HBase (分布式的、面向列的开源数据库) 基础概念
HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。转载 2017-03-05 13:32:21 · 4572 阅读 · 0 评论 -
hdfs(分布式文件系统)基本概念
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Had转载 2017-03-05 13:45:26 · 4718 阅读 · 0 评论 -
Zookeeper (分布式协调服务) 基础概念
ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。ZooKeeper包含一个简单的原语集,[1] 提供Java和C的接口。ZooKeeper代码版本中,提供了分布式独享锁、选举、队列的接口,代码转载 2017-03-05 14:00:34 · 856 阅读 · 0 评论 -
Avro (数据序列化) 基础概念
数据序列化的系统。 新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制。转载 2017-03-05 14:03:22 · 987 阅读 · 0 评论 -
pig (高级过程语言,简化 Hadoop 的使用) 基本概念
Pig是一种数据流语言和运行环境,用于检索非常大的数据集。为大型数据集的处理提供了一个更高层次的抽象。Pig包括两部分:一是用于描述数据流的语言,称为Pig Latin;二是用于运行Pig Latin程序的执行环境。转载 2017-03-05 14:07:17 · 1542 阅读 · 0 评论 -
Ambari (Apache Hadoop集群的供应、管理和监控的web工具) 基本概念
Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari目前已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop和Hcatalog等。转载 2017-03-05 14:11:02 · 2085 阅读 · 0 评论 -
大数据Web日志分析 用Hadoop统计KPI指标实例
可以带着下面问题来阅读文章 http://www.aboutyun.com/thread-6832-1-1.html问题:1.MapReduce在日志分析的作用思考:该如何架构kpi系统,需要考虑什么问题。kpi:关键绩效指标法,即KPI绩效考核,是企业绩效考核的方法之一,其特点是考核指标围绕关键成果领域进行选取,均对关键绩效指标考核法的应用及其特点有所介绍。转载 2017-04-22 22:06:08 · 1176 阅读 · 0 评论