
大数据与云计算
文章平均质量分 58
三名狂客
success without applause,diligence without reward!Becoming、Cognifying、Flowing、Screening、Accessing、Sharing、Filtering、Remixing、Interacting、Tracking、Questioning、Beginning.
展开
-
Nginx教程
1.1. 反向代理反向代理(Reverse Proxy)方式是指以代理服务器来接受internet上的连接请求,然后将请求转发给内部网络上的服务器,并将从服务器上得到的结果返回给internet上请求连接的客户端,此时代理服务器对外就表现为一个服务器。1.2. 负载均衡负载均衡,英文名称为Load Balance,是指建立在现有网络结构之上,并提供了一种廉价有效透明的方法扩展网翻译 2017-03-16 22:27:48 · 384 阅读 · 0 评论 -
大数据开源处理工具汇总
查询引擎一、Phoenix贡献者::Salesforce简介:这是一个Java中间层,可以让开发者在Apache HBase上执行SQL查询。Phoenix完全使用Java编写,代码位于GitHub上,并且提供了一个客户端可嵌入的JDBC驱动。Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan,并编排执行以生成标准的JDBC结果集。直接使用HB转载 2017-09-30 13:09:28 · 5750 阅读 · 0 评论 -
生产环境的Hadoop版本比较
一、背景介绍生产环境中,hadoop的版本选择是一个公司架构之时,很重要的一个考虑因素。这篇文章根据就谈谈现在主流的hadoop版本的比较。如果有不同意见,或者指正,希望大家能交流。Apache Hadoop:Apache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。H转载 2017-10-09 12:27:12 · 5308 阅读 · 0 评论 -
Hive数据的导入导出和查询方式
一、导入数据进入Hive表的几种方式1)加载本地文件到hive表load data local inpath '/opt/datas/emp.txt' into table default.emp ;2)加载hdfs文件到hive中load data inpath '/user/beifeng/hive/datas/emp.txt' overwrite in原创 2017-10-18 16:48:44 · 1066 阅读 · 0 评论 -
大数据生态系统
一、大数据相关工作介绍大数据方向的工作目前主要分为三个主要方向:大数据工程师数据分析师大数据科学家其他(数据挖掘等)二、大数据工程师的技能要求附上大数据工程师技能图:必须掌握的技能11条Java高级(虚拟机、并发)Linux 基本操作Hadoop(HDFS+MapReduce+Yarn )HBase(JavaAPI操作+Phoenix )Hi转载 2017-10-27 00:49:00 · 15888 阅读 · 2 评论 -
Hive初探
一、什么是Hive Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成一张表,并提供类SQL查询功能。 ##构建在Hadoop上的数据仓库 使用HQL作为查询接口 使用HDFS存储; 使用MapReduce计算原创 2017-10-11 10:51:19 · 414 阅读 · 0 评论 -
HBase详解
Hbase是什么HBase是一种构建在HDFS之上的分布式、面向列的存储系统。在需要实时读写、随机访问超大规模数据集时,可以使用HBase。尽管已经有许多数据存储和访问的策略和实现方法,但事实上大多数解决方案,特别是一些关系类型的,在构建时并没有考虑超大规模和分布式的特点。许多商家通过复制和分区的方法来扩充数据库使其突破单个节点的界限,但这些功能通常都是事后增加的,安装和维护都和复杂。同时转载 2017-11-07 21:55:28 · 640 阅读 · 0 评论 -
文件收集工具Flume
一、Flume的构成二、Flume的使用三、数据仓库的架构原创 2017-10-30 15:27:52 · 1816 阅读 · 0 评论 -
工作流调度框架Oozie
一、现有的调度框架二、Oozie定义三、Oozie架构翻译 2017-11-01 17:17:16 · 831 阅读 · 0 评论 -
大数据Web工具Hue
一、Hub架构二、Hub(Cloudera 开源框架)文档:http://gethue.com/http://archive.cloudera.com/cdh5/cdh/5/hue-3.7.0-cdh5.3.6/manual.html#_install_huehttps://github.com/cloudera/hue翻译 2017-11-03 21:59:48 · 757 阅读 · 0 评论 -
大数据协作框架
一、基本框架Hadoop 2.xHDFSYARNMapReduce(分而治之)分:map合: reduceZookeeperHive (大数据仓库)==============================对日志类型的海量数据* hdfs* mr , hive - hql二、大数据协作框架第一个问题(Sqoop(数据转换)原创 2017-10-26 16:40:19 · 485 阅读 · 0 评论 -
云计算、雾计算和边缘计算
云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。云计算是继1980年代大型计算机到客户端-服务器的大转变之后的又一种巨变。用户不再需要了解“云”中基础设施的细节,不必具有相应的专业知识,也无需直接进行控制。云计算描述了一种基于互联网的新的IT服务增加、使用和交付模式,通常涉及通过互联网来提供动翻译 2017-11-17 22:27:16 · 10500 阅读 · 0 评论 -
Storm架构
原创 2017-12-04 11:58:40 · 370 阅读 · 0 评论 -
Storm与Spark、Hadoop三种框架对比
一、Storm与Spark、Hadoop三种框架对比Storm与Spark、Hadoop这三种框架,各有各的优点,每个框架都有自己的最佳应用场景。所以,在不同的应用场景下,应该选择不同的框架。1.Storm是最佳的流式计算框架,Storm由Java和Clojure写成,Storm的优点是全内存计算,所以它的定位是分布式实时计算系统,按照Storm作者的说法,Storm对于实时计算的意义类似于Had...转载 2017-10-08 15:58:12 · 18041 阅读 · 0 评论 -
MapReduce计算模型
MapReduce(YARN)是Hadoop提供的一种处理海量数据的并行编程模型和计算框架,用于对大规模的数据进行并行计算。主要由resourcemanager和nodemanager两类节点构成。其中resourcemanager主要负责集群资源管理,nodemanager负责节点的资源管理。除此之外,当运行mapreduce任务的时候,会产生ApplicationMaster和Containe原创 2017-09-29 11:08:46 · 762 阅读 · 0 评论 -
大数据与Hadoop生态系统
一、Hadoop特性 (1)数据预先就是分布式的 (2)数据再整个计算机集群中进行备份,保证了可靠性和可用性原创 2017-05-23 10:41:00 · 726 阅读 · 0 评论 -
大数据之HDFS
一、HDFS概述HDFS(Hadoop Distributed File System)基于Google发布的GFS论文设计开发,运行在通用硬件上的分布式文件系统。 其除具备其它分布式文件系统相同特性外,还有自己特有的特性: 高容错性:认为硬件总是不可靠的 高吞吐量:为大量数据访问的应用提供高吞吐量支持 大文件存储:支持存储T原创 2017-05-23 16:32:10 · 618 阅读 · 0 评论 -
大数据到哪里去
一、大数据与政府治理 政府是一个国家最重要的决策主体,其决策是否科学,直接决定了政府的治理能力和治理效果,大数据是一场治理革命,通过全息的数据呈现,使政府从"主观主义" "经验主义"的治理方式,迈向"实事求是""数据驱动"的治理方式。 (1)百度迁徙 (2)智慧警务 二、大数据与经济治理 三、大数据与公共服务原创 2017-05-24 12:44:53 · 750 阅读 · 0 评论 -
搭建Hadoop并在集群中运行
一、简介 Hadoop的安装由4种类型的节点构成: NameNode 、DataNode、JobTracker和 TaskTracker. Hadoop提供三种安装方式: (1)本地模式:一种解压缩即运行的模式,Hadoop的各个部分都运行在同一个JVM中。 (2)伪分布式模式:使用不同的java虚拟机运行Hadoop的不同部分,但这些java虚拟机运行在同一台翻译 2017-05-24 20:22:37 · 794 阅读 · 0 评论 -
CentOS7搭建 Hadoop + HBase + Zookeeper集群
一、基础环境准备1、下载安装包1)jdk-8u131下载地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html2)hadoop-2.7.3下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/comm转载 2017-05-25 14:43:23 · 1514 阅读 · 0 评论 -
大数据学习之HDP SANDBOX开始学习
HDPHDP是什么? HDP全称叫做Hortonworks Data Platform。 Hortonworks数据平台是一款基于Apache Hadoop的是开源数据平台,提供大数据云存储,大数据处理和分析等服务。该平台是专门用来应对多来源和多格式的数据,并使其处理起来能变成简单、更有成本效益。HDP还提供了一个开放,稳定和高度可扩展的平台,使得更容易地集成Apach转载 2017-05-07 17:33:45 · 6105 阅读 · 0 评论 -
Hadooop运行WordCount(Hello world)程序
一、 Hadoop2.7.3安装并配置成功二、在HDFS中创建input文件目录 hadoop fs -mkdir /input 三、当前在hadoop-2.7.3的目录下,有个LICENSE.txt的文件,把它放到hdfs的input目录下面 hadoop fs -put LICENSE.txt /input 四、原创 2017-05-27 16:50:47 · 805 阅读 · 0 评论 -
Hadoop eclipse插件安装和在eclipse运行wordcount程序
一、插件下载点击打开链接 二、插件配置参考:插件配置 三、运行配置: 四、运行结果原创 2017-05-27 21:15:24 · 557 阅读 · 0 评论 -
大数据简介
人类文明的进步都会打下时代的烙印,19世纪的煤炭和蒸汽机,20世纪的内燃机、石油和电力,到21世纪的信息化时代。我们正处于大数据变革的时代,移动互联网、智能终端、新型传感器渗透到地球的每一个角落,人人有终端(例如手机)、物物可传感、处处可上网、时时在链接。(国际"八大金刚":IBM、谷歌、思科、高通、苹果、英特尔、甲骨文、微软) 大数据定义: (1)维基百科给出的定义:大原创 2017-05-19 17:10:06 · 1175 阅读 · 0 评论 -
大数据来源
一、历史角度 (1)第一次信息革命:语言的创造 (2)第二次信息革命:文字的出现 (3)第三次信息革命:印刷术的发明 (4)第四次信息革命:无线电的发明 (5)第五次信息革命:电视的出现 (6)第六次信息革命:计算机与互联网的使用 二、哲学角度 (1)解决原创 2017-05-22 16:18:33 · 2439 阅读 · 1 评论 -
初探Hadoop 2.x
Hadoop 2.x* common* HDFS存储数据NameNode* 存储文件系统的元数据,命名空间namespaceDataNode* 存储数据SecondaryNameNode* 辅助NAmeNode工作,合并两个文件(定时周期性)* YRANHadoop 操作系统Data 操作系统ContainerResouceManager翻译 2017-09-25 21:37:31 · 398 阅读 · 0 评论 -
大数据的学习规划
大数据方向的工作目前分为三个主要方向:01.大数据工程师02.数据分析师03.大数据科学家04.其他(数据挖掘本质算是机器学习,不过和数据相关,也可以理解为大数据的一个方向吧)一、大数据工程师的技能要求二、大数据学习路径三、学习资源推荐(书籍、博客、网站)一、大数据工程师的技能要求总结如下:必须技能10条:01.J翻译 2017-09-26 22:24:45 · 8096 阅读 · 0 评论 -
Spark大数据项目架构
一、实际项目处理流程二、具体的功能翻译 2018-01-26 12:59:23 · 808 阅读 · 0 评论