
大数据技术
Young_IT
“中国光谷•华为杯”第十九届中国研究生数学建模竞赛(国一)
展开
-
维度建模步骤
维度建模从分析决策的需求出发构建模型,为分析需求服务,因此它重点关注用户如何更快速地完成需求分析,同时具有较好的大规模复杂查询的响应性能。其典型的代表是星形模型,以及在一些特殊场景下使用的雪花模型。其设计分为以下几个步骤。原创 2024-07-11 15:36:58 · 278 阅读 · 0 评论 -
Linux常用指令
touch:创建一个新的空文件或更新文件的时间戳。top:实时显示系统的资源使用情况和运行的进程。mv:移动文件或目录,或者重命名文件或目录。find:在文件系统中搜索文件或目录。chown:修改文件或目录的所有者。chgrp:修改文件或目录的所属组。grep:在文件中搜索指定的模式。chmod:修改文件或目录的权限。ls:列出目录中的文件和子目录。mkdir:创建一个新的目录。pwd:显示当前所在的目录。cd:切换到指定的目录。rm:删除文件或目录。cp:复制文件或目录。cat:查看文件内容。原创 2024-01-16 13:54:22 · 521 阅读 · 0 评论 -
数仓分层结构
ODS层:数据存储格式:JSON/TSV+ gzip压缩(默认)Operate Data Store-- 存储从mysql业务数据库和日志服务器的日志文件中采集到的数据-- 日志数据-- 格式:JSON--业务数据--历史数据-- 格式:-- 全量-- Datax : TSV原创 2024-01-04 15:50:37 · 1103 阅读 · 0 评论 -
NameNode和SecondaryNameNode工作机制
思考:NameNode中的元数据是存储在哪里的?首先,我们做个假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。这样又会带来新的问题,当在内存中的元数据更新时,如果同时更新FsImage,就会导致效率过低,但如果不更新,就会发生一致性问题,一旦NameNode节点断电,就会产生数据丢失。因此,引入Edits文原创 2021-07-10 21:44:33 · 9468 阅读 · 1 评论 -
HDFS常用API操作、常用方法
将建立链接放在before(),关闭链接放在after()package xyz.youngit.hdfs;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*;import org.junit.After;import org.junit.Before;import org.junit.Test;import java.io.IOException;import java.net.URI;原创 2021-07-09 16:36:12 · 182 阅读 · 0 评论 -
【Hadoop】delete(Path, boolean)方法中boolean参数的含义用法
引言今天学习hadoop的删除方法时发现一个问题:如图,delete(Path, boolean),后面boolean参数的含义是什么,true和false有什么区别。为此,我查阅了官方文档并且检验了一下。官方文档解释这是官方文档的表述,首先文档版本是3.3.1,在该版本中delete(Path f)已经被标注弃用(Deprecated.)。而是被delete(Path, boolean)代替了,官方给出boolean表示是否递归(recursive)。recu.原创 2021-07-09 16:12:13 · 118211 阅读 · 0 评论 -
【Hadoop项目】log4j:WARN No appenders could be found for logger (org.apache.htrace.core.Tracer).日志报错解决办法
刚开始学习Hadoop,今天创建的HDFS项目出现日志报错,但是代码还是成功执行的。log4j:WARN No appenders could be found for logger (org.apache.htrace.core.Tracer).log4j:WARN Please initialize the log4j system properly.log4j:WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig fo原创 2021-07-08 17:09:34 · 31331 阅读 · 3 评论 -
HDFS背景定义、优缺点、组成架构、文件块大小(Hadoop Distributed File System)
1.1 HDFS产生背景随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。1.2 HDFS定义HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS的使用场景:适合原创 2021-07-07 15:27:25 · 117677 阅读 · 0 评论 -
大数据技术生态体系
图中涉及的技术名词解释如下:1)Sqoop:Sqoop是一款开源的工具,主要用于在Hadoop、Hive与传统的数据库(MySql)间进行数据的传递,可以将一个关系型数据库(例如 :MySQL,Oracle 等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。2)Flume:Flume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;3)Kafka:Kafka是一种高吞吐量的分布式..原创 2021-07-02 20:53:30 · 128453 阅读 · 3 评论 -
Hadoop组成
1.1 Hadoop1.x和Hadoop2.x区别1.2 HDFS架构概述1.3 YARN架构1.4MapReduce架构概述MapReduce将计算过程分为两个阶段:Map和Reduce1)Map阶段并行处理输入数据2)Reduce阶段对Map结果进行汇总(图文来自尚硅谷)“求知若饥、虚心若愚!”“求知若饥、虚心若愚!”“求知若饥、虚心若愚!”...原创 2021-07-02 20:48:49 · 150 阅读 · 0 评论