大数据
m_target
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hdfs基本操作
1. hdfs的操作(图形界面)1.1 hdfs的启动流程进入安全模式加载fsimage加载edits保存检查点(融合fsimage和edits文件,生成新的fsimage)退出安全模式1.2 通过浏览器访问http://namenode:500702. hdfs的操作(shell操作)hdfs dfshadoop fshdfs dfs -put text01.tx...原创 2019-05-09 20:59:54 · 662 阅读 · 0 评论 -
Hbase简介与安装
1. Hbase简介Hadoop-Database根据’bigtable’论文实现的分布式 可扩展的大数据存储技术随机访问 实时读写海量数据存储数 '十亿行 百万列’的数据高可靠性、高性能、面向列、可伸缩的分布式存储系统hbase的底层存储基于hdfs利用Zookeeper作为协调工具2. Hbase是什么?分布式开源数据库,基于hadoop分布式文件系统(HDFS)...原创 2019-09-18 11:24:08 · 494 阅读 · 0 评论 -
Hbase的体系结构
1. Hbase的体系结构(模型)1.1 逻辑结构(模型)表(table)划分数据集合的概念,和传统的db中的表的概念是一样的行键(rowKey)对应关系数据库中的主键,作用就是唯一标示一行记录获取hbase中的一个记录(数据),要通过行键来获取行键是字节数组, 任何字符串都可以作为行键表中的行根据行键(row key)进行排序 ,数据按照Row key的字节序(by...原创 2019-09-18 11:26:11 · 516 阅读 · 0 评论 -
Hbase操作
1. Hbase的Shell操作列出所有的命名空间(相当于mysql中的show databases)list_namespace列出指定命名空间下的所有表list_namespace_tables ‘ns_name’创建命名空间create_namespace ‘ns1’创建表create ‘ns1:t1’,‘f1’禁用表,因为删除表之前首...原创 2019-09-18 11:27:45 · 284 阅读 · 0 评论 -
Hbase的region操作
1. Hbase中的手动切分regionsplit 'ns1:t1','row040'2. Hbase手动移动regionmove 'f6e6164514db53d660c5414df1f3864e','mini05,16020,1539222350164'3. Hbase中row-key的设计行健的热点问题是由于行健相似、连续且数据量过大操作成单region的数据量过大,进...原创 2019-09-18 11:28:35 · 628 阅读 · 0 评论 -
Sqoop与安装
1. Sqoop简介Apache Sqoop是一种专门为hadoop和比如关系型数据库等结构化数据库之间的高效数据转换一种工具。数据的搬运工Sqoop在大多数自动化数据转换的过程中,依托于数据库相关的Schema描述信息,转换的过程是使用MapReduce来进行的Sqoop目前有两个版本,完全不兼容,Sqoop和Sqoop2.可以通过版本号来进行简单的区分,1.4.x为sqoop或sqo...原创 2019-09-18 11:30:42 · 228 阅读 · 0 评论 -
Sqoop的基本操作
1.Sqoop的基本操作列出数据库sqoop-list-databases --connect jdbc:mysql://mini05:3306/ --username root --password root列出所有的表sqoop-list-tables --connect jdbc:mysql://mini05:3306/up1 --username root --passw...原创 2019-09-18 11:31:21 · 814 阅读 · 0 评论 -
Flume安装
1. Flume简介Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统支持在日志系统中定制各类数据发送方,用于收集数据Flume提供对数据进行简单处理,并写到各种数据接收方2. Flume OG 与Flume NGFlume OG:Flume original generation,即Flume0.9x版本Flume NG:Flume next generati...原创 2019-09-18 11:33:42 · 174 阅读 · 0 评论 -
Flume采集网络端口数据
1. Flume采集网络端口数据1.1 定义flume的事件配置文件flume-nc.properties# flume-nc.conf: 用于监听网络数据的flume agent实例的配置文件############################################# 对各个组件的描述说明# 其中a1为agent的名字# r1是a1的source的代号名字# c1是...原创 2019-09-18 11:35:18 · 1014 阅读 · 0 评论 -
Hive分区表,桶表,外部表
1. hive中的表的分类1.1 内部表(管理表)create table t3(name string,.....);就是说数据的生命周期受表的控制,当表删除的时候,其数据文件一并被删除*2.2 外部表create ==external== table t4(name string,....);就是说数据的生命周期不受表的控制,当表删除的时候,其数据文件并不会删除1....原创 2019-07-12 10:05:30 · 238 阅读 · 0 评论 -
Hive基本操作
1. Hive中执行linux中的命令!linux命令;2. Hive中执行hdfs的操作dfs -ls /;3. Hive的模式本地模式开发阶段建议使用本地模式set hive.exec.mode.local.auto=true;集群模式(默认)生产环境建议使用集群模式4. Hive的访问cli(命令行)webui(很少用)api5....原创 2019-07-12 10:04:14 · 401 阅读 · 0 评论 -
Hive安装
1. Hive的简介Hive是建立在hdfs上的数据仓库披着mapreduce外衣的工具(查询引擎)允许不熟悉mapreduce开发的人员可以借助hive来分析存储在hdfs中的海量数据hadoop的客户端工具,不一定非得部署在集群中创建表时,指定Hive数据的列分隔符与行分隔符,Hive即可解析数据2. Hive到底是什么?查询引擎 :把hql(类sql语句)转换成mr作业在...原创 2019-07-12 10:03:26 · 215 阅读 · 0 评论 -
ZooKeeper
1. ZooKeeper开源的分布式的协调服务,是Google的Chubby一个开源的实现,它是一个为分布式应用提供一致性服务的软件2. ZooKeeper提供的功能配置维护域名服务分布式锁组服务3. ZooKeeper的特点简单ZooKeeper的核心是一个精简的文件系统 ,它支持一些简单的操作和一些抽象操作丰富ZooKeeper的操作是很丰富的,可实现一...原创 2019-05-09 21:04:31 · 4449 阅读 · 6 评论 -
HA高可用集群搭建
普通的hadoop集群namenode(nn)secondarynamenode(2nn)datanode(dn)普通的hadoop集群存在的问题datanode存在单点故障问题吗?不存在,因为datanode有多个机器,而且有副本机制作为保障namenode存在单点故障问题吗?存在,因为2nn不能代替nn,2nn的作用只是融合fsimage和edits文件,所以nn...原创 2019-05-09 21:05:57 · 318 阅读 · 0 评论 -
hdfs读写文件的流程
1. hdfs写文件的流程上传数据时datanode的选择策略第一个副本考虑与client最近的(同机架)第二个副本考虑跨机架的datanode,增加副本可靠性第三个副本在第一个副本机架上选择一台datanode存放上传流程客户端上传文件大小为300m,这个文件将被分成三个block上传客户端请求namenode上传文件,namanode在元数据检验后,满足上传上传条件向客户端...原创 2019-05-09 21:07:27 · 256 阅读 · 0 评论 -
mapreduce简介与实现
1. MapReduce简介MapReduce是一种分布式计算模型由Google提出,主要用于搜索领域,解决海量数据的计算问题MapReduce在处理多于10PB数据时趋向于变慢Mapreduce是依赖网络IO和磁盘IO的2. MapReduce模型计算海量的数据,能在一个机器计算吗?不能移动计算不移动数据mapreduce的阶段map阶段reduce阶段...原创 2019-07-12 09:56:36 · 341 阅读 · 0 评论 -
MapReduce实现,打包,远程调试
1. MapReduce的编写1.1 pom依赖<properties> <!--hadoop的版本--> <hadoop.version>2.6.4</hadoop.version></properties><dependencies> <!-- hadoop的公共组件-->...原创 2019-07-12 10:00:15 · 457 阅读 · 0 评论 -
mapreduce的多输入的问题
mapreduce的多输入的问题CountForSeqMapper.javapublic class CountForSeqMapper extends Mapper<Text,IntWritable,Text,IntWritable>{ @Override protected void map(Text key, IntWritable value, Cont...原创 2019-07-12 10:01:12 · 529 阅读 · 0 评论 -
centeros安装mysql5.6
centeros安装mysql5.6卸载自带mysql的库文件yum -y remove mysql-libs.x86_64下载mysql5.6的镜像wget http://repo.mysql.com/mysql-community-release-el6-5.noarch.rpm安装镜像rpm -ivh mysql-community-release-el6-5.n...原创 2019-07-12 10:01:50 · 266 阅读 · 0 评论 -
Flume监听
1. Flume监听命令的执行结果配置agent############################################# 对各个组件的描述说明# 其中a1为agent的名字# r1是a1的source的代号名字# c1是a1的channel的代号名字# k1是a1的sink的代号名字#########################################...原创 2019-09-18 11:36:21 · 769 阅读 · 0 评论
分享