
大数据
cjfeii
Hello World.
展开
-
HDFS集群数据迁移方案-distcp
HDFS集群数据迁移方案-distcp1. 原理distcp原理是在Hadoop集群中使用MapReduce分布式拷贝数据。2. 资源消耗源集群有只有数据读取和网络传输的消耗目的集群需要执行MapReduce任务,并且有数据写入的消耗(3副本需要有3倍的写入)3. 兼容性同版本集群拷贝(或者协议兼容版本之间的拷贝)使用HDFS协议hadoop distcp hd...原创 2020-04-17 10:43:24 · 1555 阅读 · 0 评论 -
数据湖技术说明
1. 为什么要做存储和计算分离?随着数据量的增长,存储和计算资源的使用率严重不均衡从数据的生命周期来看,存在冷热数据分层的现象2. 数据仓库和数据湖有什么不同?一是存储数据类型不同二是数据处理模式不同三是服务对象不同3. 数据湖的优势一是数据集成方式简单二是加速数据准备过程三是具备更好的可扩展性四是系统建设成本更低五是便于创建智能化分析应用4. 数据湖的未来相对...原创 2019-10-17 15:11:32 · 762 阅读 · 0 评论 -
单机系统和分布式系统相关概念对比
单机系统和分布式系统相关概念对比。原创 2016-01-28 10:03:37 · 3196 阅读 · 0 评论 -
大型分布式网站架构技术总结
本文是学习大型分布式网站架构的技术总结。对架构一个高性能,高可用,可伸缩,可扩展的分布式网站进行了概要性描述,并给出一个架构参考。一部分为读书笔记,一部分是个人经验总结。对大型分布式网站架构有很好的参考价值。转载 2016-02-24 11:39:24 · 1309 阅读 · 0 评论 -
Elasticsearch介绍文档
Elasticsearch介绍文档0. 说明主要介绍ES的相关概念以及如何使用1. 一些概念索引-index - 一个索引就是一个拥有几分相似特征的文档的集合 - 相当于数据库中的database类型-type - 一个类型是你的索引的一个逻辑上的分类/分区 - 通常,会为具有一组共同字段的文档定义一个类型 - 相当于数据库中的table文档-docume...原创 2018-03-31 17:28:24 · 609 阅读 · 0 评论 -
数据库系统——关系型数据在磁盘上的存储布局
ELKtail可以使用ELKtail连上Elasticsearch,以tail的方式查看ES中的日志。 使用方式也和tail命令类似,下面是常用的使用方法介绍。基本用法elktail不加参数直接使用elktail不加任何参数,那么将会尝试连接localhost:9200,并且tail最近的logstash index,展示message字段信息$ ./elktai...原创 2018-03-31 17:32:23 · 1195 阅读 · 0 评论 -
Kibana查询语法详解
Kibana查询语法详解Kibana查询语法和Lucene相同,下面是Lucene的查询语法介绍。注意:Lucene查询语法不适合在程序中使用,程序中使用可以调用Lucene-API,API提供了丰富功能来组合定制你所需要的查询器,查询语法是为手工输入高级查询设计的,而不是为程序拼接语法串而设计的。1. 简单说明1.1 Terms一个查询将分解为若干Term以及操作符...原创 2018-03-31 17:33:47 · 56697 阅读 · 0 评论 -
ELK性能优化说明
ELK性能优化简要说明1. 系统部署说明 组件 机器配置 说明 ElasticSearch&Kibana 3 * (32 core + 128GB mem + SAS 3.6T*12) EK混部 Logstash 3 * (40 core + 32GB mem) 单独部署,比较耗cpu DS&Kafka 5 ...原创 2018-03-31 17:35:05 · 6633 阅读 · 0 评论 -
ElasticSearch运维手册
ElasticSearch运维手册0. 介绍主要介绍了ES常用的在运维过程中可能会用到的一些命令。1. 查看ES集群中节点信息查看ES集群中所有节点信息,以及各个节点内存和CPU相关的指标$ curl -X GET 'http://192.168.5.1:9200/_cat/nodes?v'ip heap.percent ram.percent...原创 2018-04-12 22:55:01 · 4776 阅读 · 0 评论 -
RabbitMQ Exchange 类型介绍
RabbitMQ有四种交换机类型,分别是Direct exchange、Fanout exchange、Topic exchange、Headers exchange。原创 2016-01-27 16:48:38 · 1149 阅读 · 0 评论 -
Hive 问题汇总
1 Cannot execute statement: impossible to write to binary log since BINLOG_FORMAT = STATEMENT…当启动Hive的时候报错:Caused by: javax.jdo.JDOException: Couldnt obtain a new sequence (unique id) : Cannot execute原创 2015-10-23 17:01:07 · 15439 阅读 · 2 评论 -
Hive 安装教程
Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的 sql 查询功能,可以将 SQL 语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的 MapReduce 统计,不必开发专门的 MapReduce 应用,十分适合数据仓库的统计分析。 本文主要介绍在 CentOS 下 安装 Hive环境。原创 2015-10-26 14:17:29 · 13918 阅读 · 0 评论 -
storm 的三种计算语义
1. at-most-once:spout针对相同的tuple只发送一次即可,不需要实现fail和ack方法。2. at-least-once:是用acker机制实现的,我们需要实现spout的两个方法:fail和ack,在topology上增加一个ackerbolt,spout和bolt发出的每一个tuple都会被将跟踪信息写到ackerbolt,如果这个tuple正常被处理,则调用原创 2015-07-30 16:48:31 · 3288 阅读 · 0 评论 -
建立互信
1. 在本地生成public-key:$ ssh-keygen2. 将公钥拷贝到远程主机:$ ssh-copy-id -i ~/.ssh/id_rsa.pub remote-host3. 测试是否建立互信:$ ssh remote-host原创 2015-07-30 13:41:48 · 1141 阅读 · 0 评论 -
libhdfs 的C API
1.概述libhdfs是基于JNI的hdfs的C应用接口。它提供了通过C接口访问HDFS的功能。libhdfs库是Hadoop发行版中一部分,已经编译好了,所在位置一般是${HADOOP_HOME}/lib/native/libhdfs.so 。不同的版本库文件所在位置稍微不同。2.APIlibhdfs中的没有API描述一般在hdfs.h中,该头文件的位置一般在${HADOOP_H原创 2014-02-14 16:25:37 · 6806 阅读 · 0 评论 -
Hadoop 安装教程
本文主要介绍在 CentOS 安装 CDH,具体版本信息如下: OS: CentOS 7.0 Java: jdk1.7.0_79 Hadoop: hadoop-2.6.0-cdh5.4.7原创 2015-10-26 10:43:49 · 2527 阅读 · 0 评论 -
Hadoop 为什么不建议使用 RAID?
因为采用 RAID 会有下面三个缺点: 1. 性能会有所降低,主要受限于最慢的disk(哪怕一个品牌的disk,性能也会不一样); 2. 磁盘整理可用性降低,其中一块或是几块盘坏掉,可能会造成整个 RAID 都不可用; 3. 可能会造成资源浪费,Hadoop 中每份数据都会有三个副本,存在冗余的 RAID 就没有必要;综合以上,说明 Hadoop 不建议使用 RAID。原创 2015-10-30 09:36:21 · 7376 阅读 · 7 评论 -
Pinot安装并简单部署测试环境
Pinot 是一个实时分布式的 OLAP 数据存储和分析系统。LinkedIn 使用它实现低延迟可伸缩的实时分析。Pinot 从离线数据源(包括 Hadoop 和各类文件)和在线数据源(如 Kafka)中攫取数据进行分析。Pinot 被设计是可以进行水平扩展的。原创 2015-07-30 14:17:01 · 2081 阅读 · 0 评论 -
Pinot架构介绍
Pinot 是一个实时分布式的 OLAP 数据存储和分析系统。LinkedIn 使用它实现低延迟可伸缩的实时分析。Pinot 从离线数据源(包括 Hadoop 和各类文件)和在线数据源(如 Kafka)中攫取数据进行分析。Pinot 被设计是可以进行水平扩展的。原创 2015-07-03 15:11:33 · 4795 阅读 · 0 评论 -
zookeeper3.4.6Linux单机部署
1. 检查java环境:java –version或原创 2014-04-29 12:23:51 · 6043 阅读 · 0 评论 -
Pinot 简介
Pinot 是一个实时分布式的 OLAP 数据存储和分析系统。LinkedIn 使用它实现低延迟可伸缩的实时分析。Pinot 从离线数据源(包括 Hadoop 和各类文件)和在线数据源(如 Kafka)中攫取数据进行分析。Pinot 被设计是可以进行水平扩展的。原创 2015-07-01 16:12:22 · 2544 阅读 · 0 评论