
【大数据】
文章平均质量分 91
大数据上课笔记
dongyuyuu
人生难得糊涂,就这样糊涂的过吧,也挺好。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Sqoop数据迁移介绍
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库间进行数据的传递。Sqoop版本:Sqoop1sqoop1优点:架构部署简单sqoop1的缺点:命令行方式容易出错,格式紧耦合,无法支持所有数据类型,安全 机制不够完善, 安装需要root权限,connector必须符合JDBC模型Sqoop2sqoop2的优点:多种交互方式,命令行,web UI,...原创 2020-05-06 14:12:10 · 762 阅读 · 0 评论 -
hive仓库练习题
选择题Hive是建立在(Hadoop)之上的数据仓库Hive默认分桶的数量是(-1)HiveQL和SQL的一个不同之处在于(Partition)操作按粒度大小的顺序,Hive数据被分为数据库,数据表,分区和(桶)Hive查询语句中,select ceil(2.34);输出结果为(3)【向上取整】题目1:对input.txt进行分析,在hive中完成:(1)创建一个数据库test...原创 2020-05-06 10:38:18 · 4419 阅读 · 1 评论 -
Hive本地安装教程
hive三种安装模式:嵌入模式:使用内嵌的Derby数据库存储元数据,是hive默认安装方式,但是一次只能连接一个客户端,适合用于测试,不适合生产环境。本地模式:采用外部数据库存储元数据,该模式不需要单独开启metastore服务,因为本地模式使用的是和hive在同一个进程的Metastore服务。远程模式:采用外部数据库存储元数据,该模式需要单独开启metastore服务,然后每个客户端...原创 2020-04-20 17:36:28 · 2757 阅读 · 0 评论 -
数据仓库Hive简单了解(一)
数据仓库(DW或DWH)是一个面向主题的、集成的、随时间变化的,但信息本身相对稳定的数据集合。数据仓库三个特点:(选择题)面向主题随时间变化相对稳定数据库和数据仓库的主要区别:数据库只存放当前值;数据仓库存放历史值;数据库内数据是动态变化的,只要有业务发生,数据就会被更新;而数据仓库则是静态的历史数据,只能定期添加、刷新;数据库中的数据结构比较复杂,有各种结构以适合业务处理系...原创 2020-04-15 09:21:44 · 896 阅读 · 0 评论 -
MapReduce运行模式之词频统计
主要项目结构:配置pom.xml引入需要的jar包<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://mav...原创 2020-03-30 11:47:32 · 595 阅读 · 0 评论 -
HDFS中的shell
Shell:提供给使用者使用界面的进行与系统交互的软件,通过接收用户输入的命令执行相应的操作shell分为:图形界面Shell命令行式ShellShell中的命令-ls:查看指定路径的目录结构-du:统计目录下所有文件的大小-mv:移动文件-cp:复制文件-rm:删除文件/空白文件夹-cat:查看文件内容-text:源文件输出为文本格式-mkdir:创建空白文件夹-...原创 2020-03-30 11:31:58 · 228 阅读 · 1 评论 -
使用Java API操作Hadoop文件系统
HDFS Shell本质上就是对java API的应用,通过编程的形式操作HDFS,其核心就是:使用HDFS提供的Java API构造一个访问客户端对象,然后通过客户端对象对HDFS上的文件进行增、删、改、查操作HDFS java API 中的包:创建一个客户端实例涉及的类:Configuration:FileSystem:FileS...原创 2020-03-30 11:30:14 · 335 阅读 · 0 评论 -
分布式文件系统(HDFS)中的shell操作
hadoop fs hadoop dfs hdfs dfs hadfs参数:ls查看指定路径的当前目录结构hadoop fs -ls [-d] [-h] [-R] -d:将目录显示为普通文件-h:使用便于操作人员读取的单位信息格式-R:递归显示所有的子目录...原创 2020-03-30 11:28:14 · 169 阅读 · 0 评论 -
MapReduce分布式计算框架
MapReduce是Hadoop系统核心组件之一,是一种可用于大数据并行处理的计算模型、框架和平台,主要解决海量数据的计算,是目前分布式计算模型中应用较为广泛的一种。MapReduce核心思想:分而治之。使用MapReduce操作海量数据时:每个MapReduce程序被初始化为一个工作任务每个工作任务可以分为Map和Reduce l两个阶段...原创 2020-03-20 12:28:37 · 2988 阅读 · 0 评论 -
HDFS分布式文件系统
hadoop的核心HDFS(Hadoop Distributed Filesystem)MapReduceHDFS:主要是解决海量大数据的存储问题这里的服务器A被称为NameNode:维护着文件系统内所有文件和目录的相关信息服务器B、C、D被称为DataNode:用于存取数据块HDFS可以运行在廉价的计算机上,存储海量的数据数据块(block)每个数据块儿默认大小事128M...原创 2020-03-11 12:24:26 · 320 阅读 · 0 评论 -
centos7搭建hadoop集群(完全分布式模式)
1. 创建虚拟机到这里一台裸机就创建好了。接下来就是添加镜像:hadoop01界面编辑虚拟机设置,添加镜像。然后点击开启此虚拟机接下来就是为裸机安装一个操作系统:至此,虚拟机创建完成。2. 设置ip及机器名映射打开hostname文件修改内容为下,保存并退出输入命令:vi /etc/sysconfig/network-s...原创 2020-03-09 10:32:04 · 2419 阅读 · 0 评论 -
hadoop集群准备---centos7安装jdk8
学习大数据之前需要安装VMware,在vm中安装centos7,然后新建三个虚拟机master、node01、node02。创建虚拟机完成后,确保虚拟机可以连接到外网,然后打开xshell,使用xshell连接三台虚拟机进行操作。要求三台虚拟机都安装jdk8,所以,打开xshell后,可以点击工具-发送键输入到所有会话。 &n...原创 2020-03-02 10:05:54 · 452 阅读 · 0 评论 -
大数据01-初识hadoop
大数据的概述大数据的特征原创 2020-02-28 13:01:36 · 272 阅读 · 0 评论