
数据开发--hadoop
东华果汁哥
大家好!我叫赖德发,欢迎您来到我的博客。
展开
-
【大数据 kafka】kakfa中常用的几个术语
kafka 常用的几个术语了解一下。kafka broker:运行kafka server的服务被称为broker,它主要用于接手topic消息,管理topic,持久化和存储topic数据,kafka审计,kafka权限管理等。topic:消息主题,每个topic唯一,可存储和传输数据。(MQ中通常有Topic和Queue 2中消息传输方式,topic:发布/订阅(publish/subscribe,简称pub/sub)Topic消息传递模型,支持一条消息发送多个消费组/消费者;queue:点对点(po原创 2021-03-01 10:15:45 · 344 阅读 · 0 评论 -
【数仓 概念理解】数据仓库建设:数据分层
数据分层的目的是更好的管理数据,对数据能有一个更加清晰的掌控。数据分层使的数据具有清晰的数据结构,便于进行数据血缘追踪,能够把复杂问题简单化,减少重复开发,屏蔽原始数据的异常和业务的影响。每个企业或组织由于各自业务、规范、目标不尽相同,分层的策略可能会有一些区分,通用的数据分层结构如下图所示。DIM(维表层) 所有维度表的集合DM(数据集市层) 面向数据应用,提供决策支撑DWS(数据服务层) 面向业务分析-维度建模-解决灵活分析DWD(数据明细层) 面向业务过程-3NF建模-解决上层分析的可复用性原创 2020-10-14 09:18:32 · 683 阅读 · 0 评论 -
【Hadoop--04】Hadoop读文件
1、客户端向NameNode发送读取请求2、NameNode返回文件的所有block和这些block所在的DataNodes(包括复制节点)3、客户端直接从DataNode中读取数据,如果该DataNode读取失败(DataNode失效或校验码不对),则从复制节点中读取(如果读取的数据就在本机,则直接读取,否则通过网络读取)原创 2017-07-18 09:23:51 · 812 阅读 · 0 评论 -
【Hadoop--03】HDFS写文件
1.客户端将文件写入本地磁盘的N#x4E34;时文件中2.当临时文件大小达到一个block大小时,HDFS client通知NameNode,申请写入文件3.NameNode在HDFS的文件系统中创建一个文件,并把该block id和要写入的DataNode的列表返回给客户端4.客户端收到这些信息后,将临时文件写入DataNodes4.1 客户端将文件内容写入第一个DataNode(一般以4kb为单原创 2017-07-17 17:48:45 · 762 阅读 · 0 评论 -
【Hadoop--02】Hadoop HDFS是什么?
Hadoop - HDFS简介 Hadoop Distributed File System,分布式文件系统架构Block数据&##x5757;基本存储单位,一般大小为64M(配置大的块主要是因为:1)减少搜寻时间,一般硬盘传输速率比寻道时间要快,大的块可以减少寻道时间;2)减少管理块的数据开销,每个块都需要在NameNode上有对应的记录;3)对数据块进行读写,减少建立网络的连接成本)一个大文件原创 2017-07-17 17:36:04 · 625 阅读 · 0 评论 -
【Hadoop--01】Hadoop简介
Hadoop可运行于一般的商用服务器上,具有高容错、高可靠性、高扩展性等特点特别适合写一次,读多次的场景。适合 大规模数据 流式数据(写一次,读多次) 商用硬件(一般硬件)不适合 低延时的数据访问 大量的小文件 频繁修改文件(基本就是写1次)Hadoop架构HDFS: 分布式文件存储 YARN: 分布式资源管理 MapReduce: 分布式计算 Others: 利用YARN的资源管原创 2017-07-17 17:19:43 · 2504 阅读 · 0 评论 -
【hadoop Sqoop】Sqoop从mysql导数据到hdfs
1.下载sqoop安装包wget https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/1.4.6/sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz2.解压安装包tar -xzvf /sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz3.配置hadoopmv sqoop-1.4.6.原创 2017-07-07 11:18:52 · 1065 阅读 · 0 评论 -
【hadoop Sqoop】Sqoop从mysql导数据到hive
1、概述Sqoop是一个实现在关系型数据库和Hive进行数据交换的工具。 主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。2、参数hive导入参数 --hive-home原创 2017-07-07 10:51:42 · 804 阅读 · 0 评论 -
【hadoop Sqoop】数据迁移工具 sqoop 入门
数据迁移工具sqoop入门首先,先简单说明下sqoop是什么,sqoop 即 SQL to Hadoop ,是一款方便的在传统型数据库与Hadoop之间进行数据迁移的工具,充分利用MapReduce并行特点以批处理的方式加快数据传输,发展至今主要演化了二大版本,sqoop1和sqoop2。 那么为什么选择sqoop呢? 1,高效可控的利用资源,任务并行度,超时时间。 2,数据类型映射与转原创 2017-07-07 10:57:41 · 2137 阅读 · 0 评论 -
【hadoop Sqoop】Sqoop 1.4.6 安装
第一步:下载Sqoop选择 (sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz) http://apache.fayea.com/sqoop/1.4.6/第二步:拷贝至安装目录并解压缩tar zxf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz第三步:目录名过长,修改为 sqoop-1.4.6mv sqoop-1.4.6.原创 2017-07-07 10:35:47 · 698 阅读 · 0 评论 -
【大数据 BI】传统BI流程
传统BI流程原创 2017-07-06 19:27:31 · 3495 阅读 · 0 评论 -
【大数据 hadoop】hadoop生态圈
adoop生态圈hadoop提供的功能,利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理核心组件: A、HDFS 分布式文件系统 B、YARN 运算资源调度系统 C、MAPREDUCE 分布式运算编程框架生态圈sprakstormflumehivehbasehadoop在大数据、云计算中的位置和关系云计算是分布式计算、并行计算、网络计算、多核计算、网络存储、虚拟化原创 2017-07-06 19:22:33 · 1444 阅读 · 0 评论 -
【大数据 hadoop】大数据框架Hadoop主要模块介绍
本文涉及到的所有模块,都是属于Apache组织,不包括其他第三方的模块。核心模块:Hadoop Common: 包括Hadoop常用的工具类,由原来的Hadoop core部分更名而来。主要包括系统配置工具Configuration、远程过程调用RPC、序列化机制和Hadoop抽象文件系统FileSystem等。它们为在通用硬件上搭建云计算环境提供基本的服务,并为运行在该平台上的软件开发提供了所需的转载 2017-07-03 10:05:52 · 1871 阅读 · 0 评论