
大数据
文章平均质量分 61
测试架构师Alice
代码改变世界
展开
-
NoSQL
NoSQL,泛指非关系型的数据库NoSQL数据库的四大分类1.键值(Key-Value)存储数据库这一类数据库主要会使用到一个哈希表,这个表中有一个特定的键和一个指针指向特定的数据。Key/value模型对于IT系统来说的优势在于简单、易部署。但是如果DBA只对部分值进行查询或更新的时候,Key/value就显得效率低下了。Redis2.列存储数据库这部分数据库通常是用来应对分原创 2016-11-03 16:00:36 · 282 阅读 · 0 评论 -
Hadoop学习笔记(一)
Hadoop是什么Hadoop运行于大规模普通服务器上的大数据存储、计算、分析的分布式存储系统和分布式运算框架Hadoop2.X组成分布式文件系统HDFS分布式计算框架MapReduce资源分配系统YARN原创 2017-08-20 15:26:38 · 285 阅读 · 0 评论 -
Flume安装
安装步骤• 1、对flume进行解压缩:tar -zxvf apache-flume-1.6.0-bin.tar.gz(下载地址:http://archive.apache.org/dist/flume/)• 2、对flume目录进行重命名:mv apache-flume-1.6.0-bin flume• 3、配置flume相关的环境变量1)vi ~/.bash_profile原创 2016-11-16 16:41:02 · 472 阅读 · 0 评论 -
CentOS7.2虚拟机配置IP和路由
查看网络,配置静态IP使用下面的命令来验证网络管理器服务的状态:$ systemctl statusNetworkManager.service运行以下命令来检查受网络管理器管理的网络接口:$ nmcli dev status如果某个接口的nmcli的输出结果是“已连接”(如本例中的enp160),这就是说该接口受网络管理器管理。你可以轻易地为某个特定接口禁用网络管理器,以转载 2017-01-06 11:27:27 · 6896 阅读 · 0 评论 -
Cloudera简介和安装部署概述
最近作者在研究Cloudera,并且在自己的虚拟机集群安装部署成功,所以在此做个分享,帮助大家尽快构建自己的Cloudera环境并运用起来。文章将会对Cloudera以及其安装时涉及到的组件做一个简单的介绍,并把官方文档中介绍的3种安装部署方式做一个概要的说明。Cloudera简介为了构建一个以数据为驱动的业务场景,我们需要一个强大的管理工具去统一并安全地管理我们的业务数据,所以C转载 2017-06-17 10:22:48 · 929 阅读 · 0 评论 -
Kafka Topic Partition Replica Assignment实现原理及资源隔离方案
Kafka Topic Partition Replica Assignment实现原理及资源隔离方案本文共分为三个部分: Kafka Topic创建方式Kafka Topic Partitions Assignment实现原理Kafka资源隔离方案 1. Kafka Topic创建方式 Kafka Topic创建方式有以下两种表现形式: (1)转载 2017-06-30 09:59:01 · 1701 阅读 · 0 评论 -
Hive的内置服务和hiveserver/hiveserver2的比较
一:Hive的几种内置服务 执行bin/Hive --service help 如下: [html] view plain copy[master@master1 hive]$ bin/hive --service help ls: 无法访问/opt/spark/lib/spark-ass转载 2017-06-19 16:44:41 · 6570 阅读 · 0 评论 -
CDH简介
1、Apache Hadoop 不足之处 • 版本管理混乱 • 部署过程繁琐、升级过程复杂 • 兼容性差 • 安全性低2、Hadoop 发行版 • Apache Hadoop • Cloudera’s Distribution Including Apache Hadoop(CDH) • Hortonworks Data Platform转载 2017-06-17 10:00:44 · 4863 阅读 · 0 评论 -
Flume简介
Flume 是Cloudera 提供的日志收集系统,具有分布式、高可靠、高可用性等特点,对海量日志采集、聚合和传输,Flume 支持在日志系统中定制各类数据发送方,同时,Flume 提供对数据进行简单处理,并写到各种数据接受方的能力。Flume 使用java 编写,其需要运行在Java1.6 或更高版本之上。Flume 传输的数据的基本单位是Event,如果是文本文件,通常是一行记原创 2016-11-16 16:31:49 · 229 阅读 · 0 评论 -
大数据性能调优之HBase的RowKey设计
1 概述HBase是一个分布式的、面向列的数据库,它和一般关系型数据库的最大区别是:HBase很适合于存储非结构化的数据,还有就是它基于列的而不是基于行的模式。既然HBase是采用KeyValue的列存储,那Rowkey就是KeyValue的Key了,表示唯一一行。Rowkey也是一段二进制码流,最大长度为64KB,内容可以由使用的用户自定义。数据加载时,一般也是根据Rowkey的二进转载 2016-11-10 16:22:30 · 364 阅读 · 0 评论 -
Hadoop学习笔记(二)--HDFS分布式文件系统(1)
Hadoop学习笔记(二)--HDFS分布式文件系统HDFS简介优点:处理超大文件流式的访问数据(一次写入,多次读取)运行于廉价的商用机器集群上局限性:不适合处理低延迟数据访问无法高效存储大量的小文件不支持多用户写入及任意修改文件HDFS架构主从结构主节点:只有一个NameNode(单点故障),HA下会有多个NameNode。从节点:有很多D原创 2017-08-28 22:21:31 · 497 阅读 · 0 评论