
学习笔记
文章平均质量分 83
luckboy0000
一个程序员(ง •̀_•́)ง
展开
-
Spark SQL
什么是Spark SQLSpark SQL是spark处理结构化数据的一个模块,它提供了两个编程抽象:DataFrame和DataSet,并作为分布式sql的查询引擎hive的工作原理是将任务转化 成MR,而Spark SQL是将Spark SQL转化成RDD,然后提交集群执行,效率高Spark SQL 的特点1.易整合2.统一的数据访问方式3.兼容hive4.标准的数据连接什么是DataFrameDataFrame和RDD类似,也是一个分布式数据容器,DataFrame可以体现出数据存放原创 2021-06-07 15:40:06 · 174 阅读 · 0 评论 -
Spark-core
什么是SparkSpark是基于内存的快速,通用,可扩展的大数据分析引擎Spark的内置模块Spark Core是Spark可以离线处理的部分,实现了spark的基本功能,包含任务调度,错误恢复,与存储系统交互等模块。Spark Core 中还包含了对弹性分布式数据集的APISpark SQL可以使用sql结构化语句来查询数据,支持多种数据源,hive,json等Spark Streaming是Spark 对实时数据进行流式计算的组件。提供用来操作数据流的APISpark MLlib提原创 2021-06-02 11:37:05 · 268 阅读 · 0 评论 -
Yarn详解
Yarn定义Yarn是一个负责资源调度和任务管理的资源调度平台,它相当于电脑的操作系统,而MapReduce相当于在yarn上运行的应用程序Yarn基本框架Yarn主要由RecourceManager,NodeManager,ApplicationMaster,Container等组件构成Yarn的框架图:首先客户端向ResourceManager提交作业,ReduceManager会在相对空闲的DataNode上启动一个AppMaster(它相当于此次作业的代理人),AppMaster会将原创 2021-03-17 11:42:42 · 703 阅读 · 0 评论 -
MapReduce详解
MapReduce定义MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”在windows下实现wordcountpublic class WordCountMapper extends Mapper<LongWritable,Text,Text,IntWritable> { @Override protected void map(LongWritable key, Text value, Context cont原创 2020-12-19 16:11:47 · 382 阅读 · 0 评论 -
在Windows环境下安装hadoop | windows下操作HDFS
安装hadoop1.首先解压hadoop安装包2.直接配置hadoop环境变量HADOOP_HOME=hadoop安装路径(不要有中文目录)在PATH里添加hadoop下bin的路径3.测试:在cmd窗口 hadoop version 显示版本号则安装成功maven1.启动idea2.建立maven工程3.在自动生成的pom.xml文件下导包导包1.在setting下输入maven,找到它有settings.xml文件2.编辑这个文件修改这两部分<localReposi原创 2020-12-16 15:31:21 · 450 阅读 · 0 评论 -
HDFS面试题
HDFS的写数据流程1.客户端向NameNode请求上传文件2.NameNode判断是否有这个目录,这个目录下是否有这个文件如果有这个文件则无法上传3.要传300MB的文件首先 请求上传第一个Block(0-128)4.返回三个节点的,表示用这三个节点保存数据5.客户端通过FSDataOutputStream模块请求dn1上传数据,dn1收到请求会继续调用dn2,然后dn2调用dn3,将这个通信管道建立完成。6.dn1、 dn2、 dn3逐级应答客户端。7.客户端开始往 dn1 上传第一个 B原创 2020-12-14 16:56:13 · 246 阅读 · 0 评论 -
ssh加密协议
SSH协议SSH是一种网络协议用于密码加密基本用法SSH最基本的用法:例:用户名:user登录的远程主机名:hostssh user@host 登录到host主句上的user用户,如果本地的用户名和远程的用户名相同时可以省略用户名ssh host退出:exitSSH两种认证方式基于用户密码的安全认证ssh user@host基于密钥的安全认证使用公钥和私钥对的方式对用户进行认证ssh-keygen -t rsa 生成钥匙对这个钥匙对在家目录下有一个隐藏文件夹 .ssh下s原创 2020-12-07 16:19:25 · 638 阅读 · 0 评论 -
Shell笔记--大全
Shell系统变量set 查看系统变量常见的系统变量HOME:打印用户家目录。SHELL:显示当前shell类型。USER:打印当前用户名。ID:打印当前用户ID信息。PWD:显示当前所在路径。TERM:打印当前终端类型。HOSTNAME:显示当前主机名。$HOME 打印用户家目录自定义变量A=10 定义一个A值为10,10为字符串类型c=“Hello word” 如果定义的变量中有空格加引号普通变量可重新赋值注意:变量名由字母,数字,下划线组成,首位不能是数字。变量名和等原创 2020-12-06 10:37:40 · 132 阅读 · 0 评论