
Hadoop
huaishu
这个作者很懒,什么都没留下…
展开
-
ES集群安装6.0
集群配置ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。一、基础环境JDK :1.8.0_65 (要求1.6+)主机数...原创 2018-04-04 11:23:15 · 445 阅读 · 0 评论 -
Hive2.3.2整合HBase2的环境配置以及测试
Hive与HBase整合的实现是利用两者本身对外的API接口互相通信来完成的,其具体工作交由Hive的lib目录中的hive-hbase-handler-*.jar工具类来实现,通信原理如下图所示。Hive整合HBase后的使用场景:(一)通过Hive把数据加载到HBase中,数据源可以是文件也可以是Hive中的表。(二)通过整合,让HBase支持JOIN、GROUP等SQL查询语法。(三)通过整...原创 2018-04-02 14:49:16 · 2944 阅读 · 2 评论 -
Hadoop2.7.2 HBase2.0.0环境搭建
集群配置HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。一、基础环境JDK :1.8.0_65(要求1.6+)ZooKeeper:3.4.10Hadoop:2.7.2HBase:2.0.0-alpha4主机数:3(要求3+...原创 2017-12-06 10:51:31 · 4629 阅读 · 1 评论 -
Linux Hadoop2.7.2 Hive2.3.2 安装
Hive 是一个数据仓库工具,曾经ETL是数据仓库必备工具,DB2、ORACLE、SqlServer等数据库厂商提供各种数据仓库工具,互联网的到来使这些数据库工具略显老态。1.Hadoop环境服务器主机名IP地址JDK用户Master10.116.33.1091.8.0_65rootslave110.27.185.721.8.0_65rootslave210.25.203.671.8.0_65ro...原创 2018-04-01 17:13:32 · 1377 阅读 · 0 评论 -
spark-2.2.0 集群安装部署以及hadoop集群部署
Spark在生产环境中,主要部署在安装Linux系统的集群中。在linux系统中安装Spark需要预先安装JDK、Scala等所需要的依赖。由于Spark是计算框架,所以需要预先在集群内有搭建好存储数据的持久化层,如HDFS、Hive、Cassandra等,最后可以通过启动脚本运行应用。1.安装JDKOracleJDK下载地址:http://www.oracle.com/techne...原创 2017-08-05 14:32:40 · 5161 阅读 · 0 评论 -
分布式ZooKeeper-3.4.10集群安装
ZooKeeper是一个为分布式应用所设计的开源协调服务,其设计目的是为了减轻分布式应用程序所承担的协调任务。它可以为用户提供同步、配置管理、分组和命名等服务。jstorm需要zk配合使用,记录安装文档。一、基础环境:JDK :1.8.0_65(要求1.6+)ZooKeeper:3.4.10主机数:3(要求3+,且必须是奇数,因为ZooKeeper的选举算法)主机名...原创 2017-08-02 15:34:52 · 2133 阅读 · 0 评论 -
HBase系统架构及数据结构
HBase中的表一般有这样的特点:1 大:一个表可以有上亿行,上百万列2 面向列:面向列(族)的存储和权限控制,列(族)独立检索。3 稀疏:对于为空(null)的列,并不占用存储空间,因此,表可以设计的非常稀疏。下面一幅图是Hbase在Hadoop Ecosystem中的位置。二、逻辑视图HBase以表的形式存储数转载 2013-01-16 16:27:01 · 1005 阅读 · 0 评论 -
HBase技术介绍
HBase简介HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行M转载 2013-01-08 17:34:56 · 444 阅读 · 0 评论 -
Spark运行架构
hadoop spark转载 2017-12-08 15:47:30 · 281 阅读 · 0 评论 -
Linux SSH 无密码登录
ssh hadoop 集群原创 2013-09-05 23:07:54 · 1423 阅读 · 0 评论 -
jstorm2.1.1 集群安装
jstorm原创 2017-08-03 12:23:10 · 733 阅读 · 0 评论 -
深入理解NoSQL数据库分布式算法及策略
系统的可扩展性是推动NoSQL运动发展的的主要理由,包含了分布式系统协调,故障转移,资源管理和许多其他特性。这么讲使得NoSQL听起来像是一个大筐,什么都能塞进去。尽管NoSQL运动并没有给分布式数据处理带来根本性的技术变革,但是依然引发了铺天盖地的关于各种协议和算法的研究以及实践。正是通过这些尝试逐渐总结出了一些行之有效的数据库构建方法。在这篇文章里,我将针对NoSQL数据库的分布式特点进行一些转载 2013-09-05 21:22:36 · 4791 阅读 · 0 评论 -
Hadoop操作笔记--命令大全
1.查看hadoop的状态。$ bin/hadoop dfsadmin -reportweb方式查看: http://name.node.addr:50070/, http://job.tracker.addr:50030/ 2.添加新节点。 配置好slave node,并在slave node上启动datanode和tasktracker:$ bin/had原创 2013-09-05 10:45:58 · 2624 阅读 · 0 评论 -
MapReduce数据流
Hadoop的核心组件在一起工作时如下图所示:图4.4高层MapReduce工作流水线 MapReduce的输入一般来自HDFS中的文件,这些文件分布存储在集群内的节点上。运行一个MapReduce程序会在集群的许多节点甚至所有节点上运行mapping任务,每一个mapping任务都是平等的:mappers没有特定“标识物”与其关联。因此,任意的mapper都可以转载 2013-01-08 17:41:14 · 447 阅读 · 0 评论