大数据
houbin0912
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
结合实际项目理解集群和分布式的关系
1、关于集群和分布式的关系最近看了篇文章 到底什么是集群&分布式,文中收集了多名网友的回答,一个来自知呼的回答挺明了:分布式:一个业务分拆多个子业务,部署在不同的服务器上,(我的补充:)具有处理高并发的能力,但一个子业务系统宕机,该子业务功能将无法实现。集群:同一个业务,部署在多个服务器上,(我的补充:)具有高可用的能力,一个系统宕机,不影响业务实现。现在所转载 2017-06-06 17:41:27 · 948 阅读 · 0 评论 -
传智播客的云计算大数据课程表
云计算大数据基础班1.Java语言入门基础班课程大纲所处阶段主讲内容技术要点学习目标第1阶段:Java语言入门1.计算机基础知识1.计算机基础;2.DOS常用命令;3.Java概述;4.JDK环境安装配置;5.环境变量配置;6.Java程序入门可掌握的核心能力:(1)能够掌握DOS系统常用基本命转载 2017-11-20 11:05:54 · 5986 阅读 · 1 评论 -
用通俗易懂的话说下hadoop是什么,能做什么
hadoop是什么?(1)Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据,是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。Hadoop=HDFS(文件系统,数据存储技术相关)+ Mapreduce(数据处理),Hadoop的数据来源可以是任何形式,在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能,具有更灵活的处理能力,不管任转载 2017-06-09 17:44:27 · 65081 阅读 · 0 评论 -
kafka:一个分布式消息系统
1.背景最近因为工作需要,调研了追求高吞吐的轻量级消息系统Kafka,打算替换掉线上运行的ActiveMQ,主要是因为明年的预算日流量有十亿,而ActiveMQ的分布式实现的很奇怪,所以希望找一个适合分布式的消息系统。以下是内容是调研过程中总结的一些知识和经验,欢迎拍砖。2.基础知识2.1.什么是消息队列首先,我们来看看什么是消息队列,维基百科里的解释翻译过转载 2017-06-09 17:38:01 · 478 阅读 · 0 评论 -
实战 Lucene,第 1 部分: 初识 Lucene
在 IBM Bluemix 云平台上开发并部署您的下一个应用。开始您的试用Lucene 简介Lucene 是一个基于 Java 的全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能。Lucene 目前是 Apache Jakarta 家族中的一个开源项目。也是目前最为流行的基于 Java 开源全文检索工具包。目前已经有很多应用转载 2016-11-02 20:00:09 · 291 阅读 · 0 评论 -
Hadoop之父Doug Cutting
生活中,可能所有人都间接用过他的作品,他是Lucene、Nutch 、Hadoop等项目的发起人。是他,把高深莫测的搜索技术形成产品,贡献给普罗大众;还是他,打造了目前在云计算和大数据领域里如日中天的Hadoop。他是某种意义上的盗火者,他就是Doug Cutting。Hadoop之父Doug Cutting从实习生做起1985年,Cutting毕业于美国斯坦福大学。他转载 2016-10-31 17:27:49 · 557 阅读 · 0 评论 -
阿里巴巴分布式服务框架 Dubbo 团队成员梁飞专访
Dubbo是阿里巴巴内部的SOA服务化治理方案的核心框架,每天为2000+ 个服务提供3,000,000,000+ 次访问量支持,并被广泛应用于阿里巴巴集团的各成员站点。Dubbo自2011年开源后,已被许多非阿里系公司使用。 项目主页:http://alibaba.github.io/dubbo-doc-static/Home-zh.htm 为了使大家对该框架有一个深入的了解,本转载 2016-10-31 17:12:48 · 2201 阅读 · 0 评论 -
分布式是一种思想
分布式是一种思想,范围很广,我得先知道它的诞生:以前是一个数据库 一个JSP 就可以做一个应用了,后来随着业务复杂,我们开始分层,比如MVC之类的,再后来我们的数据越来越多了,比如有上亿的数据,这个时候我们一个数据库查询太慢了,就开始分库,这也算是分布式的一种。还有比如我们的系统访问的人多了,比如双11,上千万人同时访问,我们的服务器(网站)支持不住了,这个时候就要部署转载 2016-10-27 16:23:17 · 1161 阅读 · 0 评论 -
hadoop storm 区别
最主要的方面:Hadoop使用磁盘作为中间交换的介质,而storm的数据是一直在内存中流转的。 两者面向的领域也不完全相同,一个是批量处理,基于任务调度的;另外一个是实时处理,基于流。 以水为例,Hadoop可以看作是纯净水,一桶桶地搬;而Storm是用水管,预先接好(Topology),然后打开水龙头,水就源源不断地流出来了。 Storm之于实时处理,就好比Hadoop之于批处理转载 2016-10-31 16:47:16 · 339 阅读 · 0 评论 -
Storm是什么?
1.定义: storm是一个分布式实时计算系统,用户只需要提供自己的插件(例如一个jar包,其中编写用户自己的逻辑代码),然后将它部署到storm服务器上,storm的master服务器就会为我们自动将jar包分配到slave服务器的进程中,然后在slave服务器中运行。(注意:master服务器只会接受用户提供的插件(也称之为拓扑,如果是java语言编写的插件可以说一个jar包就是一个拓原创 2017-06-09 17:46:29 · 1496 阅读 · 0 评论 -
HBase 深入浅出
HBase 深入浅出沈 钊伟2016 年 11 月 16 日发布WeiboGoogle+用电子邮件发送本页面0HBase 在大数据生态圈中的位置提到大数据的存储,大多数人首先联想到的是 Hadoop 和 Hadoop 中的 HDFS 模块。大家熟知的 Spark转载 2017-11-03 20:40:43 · 1010 阅读 · 0 评论 -
Impala SQL 语言元素(翻译)[转载]
Impala SQL 语言元素(Elements)Impala SQL 方言支持一组标准元素(a range of standard elements),加上许多大数据方面的扩展,用于数据加载和数据仓库方面。注意:在之前的 Impala beta 版中,在impala-shell中每一语句结束时的分号是可选的。现在impala-shell支持多行命令,以便于从脚本文件中复制...原创 2018-09-21 10:05:04 · 1019 阅读 · 0 评论 -
[Kudu基础]--Kudu+Impala介绍
Kudu+Impala介绍概述Kudu和Impala均是Cloudera贡献给Apache基金会的顶级项目。Kudu作为底层存储,在支持高并发低延迟kv查询的同时,还保持良好的Scan性能,该特性使得其理论上能够同时兼顾OLTP类和OLAP类查询。Impala作为老牌的SQL解析引擎,其面对即席查询(Ad-Hoc Query)类请求的稳定性和速度在工业界得到过广泛的验证,Impala并没有...原创 2019-01-11 14:09:48 · 950 阅读 · 0 评论 -
大数据分析处理框架——离线分析(hive,pig,spark)、近似实时分析(Impala)和实时分析(storm、spark streaming)
大数据分析处理框架——离线分析(hive,pig,spark)、近似实时分析(Impala)和实时分析(storm、spark streaming)大数据分析处理架构图数据源:除该种方法之外,还可以分为离线数据、近似实时数据和实时数据。按照图中的分类其实就是说明了数据存储的结构,而特别要说的是流数据,它的核心就是数据的连续性和快速分析性;计算层:内存计算中的Spark是UC ...原创 2019-01-11 14:16:20 · 1959 阅读 · 0 评论 -
Hadoop、storm和Spark Streaming简单介绍(非原创)
文章大纲一、Hadoop是什么二、storm是什么三、Spark Streaming是什么四、Spark与storm比较五、参考文章一、Hadoop是什么1. 简介Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。[1]Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,..转载 2020-07-23 19:51:15 · 311 阅读 · 0 评论 -
一文读懂 Spark 和 Spark Streaming
前言Apache Spark 是当今最流行的开源大数据处理框架。和人们耳熟能详的 MapReduce 一样,Spark 用于进行分布式、大规模的数据处理,但 Spark 作为 MapReduce 的接任者,提供了更高级的编程接口、更高的性能。除此之外,Spark 不仅能进行常规的批处理计算,还提供了流式计算支持。Apache Spark 诞生于大名鼎鼎的 AMPLab(这里还诞生过 Mesos 和 Alluxio),从创立之初就带有浓厚的学术气质,其设计目标是为各种大数据处理需求提供一个统一的技术栈转载 2020-07-23 19:59:16 · 802 阅读 · 0 评论 -
Hbase、Hdfs、kudu的处理数据的区别
kudu不及HDFS批处理快,也不及HBase随机读写能力强,但是反过来它比HBase批处理快(适用于OLAP的分析场景),而且比HDFS随机读写能力强(适用于实时写入或者更新的场景),这就是它能解决的问题。...原创 2020-07-27 17:34:33 · 1612 阅读 · 0 评论
分享