- 博客(13)
- 收藏
- 关注
原创 开窗函数
概述: 介绍: 开窗函数的引入是为了既显示聚集前的数据,又显示聚集后的数据。即在每一行的最后一列添加聚合函数的结果。 开窗用于为行定义一个窗口(这里的窗口是指运算将要操作的行的集合),它对一组值进行操作,不需要使用 GROUP BY 子句对数据进行分组,能够在同一行中同时返回基础行的列和聚合列。 聚合函数和开窗函数: 聚合函数是将多行变成一行,count,avg… 开窗函数是将一行...
2020-04-22 16:55:41
748
原创 MYSQL
内连接 inner 最频繁使用的和重要的联接是INNER JOIN。它也被称为一个等值连接。 INNER JOIN通过结合基于联接谓词两个表(表1和表2)列值创建一个新的结果表。查询比较表1中的每一行与表2中的每一行,找到所有满足联接谓词的行。 当联接谓词被满足时,对于每个匹配的一对A和B的列值被组合成一个结果行。 INNER JOIN基本语法如下: SELECT tableA.column1, ...
2020-01-07 11:26:59
157
原创 HBase底层原理
系统架构 Client 1 包含访问hbase的接口,client维护着一些cache来加快对hbase的访问,比如regione的位置信息。 Zookeeper 1 保证任何时候,集群中只有一个master 2 存贮所有Region的寻址入口 3 实时监控Region Server的状态,将Region server的上线和下线信息实时通知给Master 4 存储Hbase的schema,包括...
2019-12-12 21:20:49
267
1
原创 MapReduce计算任务的步骤
第一步:inputformat inputformat 到HDFS上读取数据 将数据传给split 第二步:split split将数据进行逻辑切分, 将数据传给RR 第三步:RR RR:将传入的数据转换成一行一行的数据,输出行首字母偏移量和偏移量对应的数据 将数据传给MAP 第四步:MAP MAP:根据业务需求实现自定义代码 将数据传给shuffle的partition 第五步:partitio...
2019-11-17 11:05:55
367
原创 解释拜占庭容错
作者:苏江同学 链接:https://www.jianshu.com/p/5fea30b25f0a 來源:简书 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 拜占庭将军问题很多人可能听过,但不知道是什么意...
2019-11-12 22:58:15
301
原创 HDFS新增节点与删除节点(一)
服役新数据节点 需求基础: 随着公司业务的增长,数据量越来越大,原有的数据节点的容量已经不能满足存储数据的需求,需要在原有集群基础上动态添加新的数据节点。 准备新节点: 第一步:复制一台新的虚拟机出来: 第二步:修改mac地址以及IP地址: 修改mac地址命令 vim /etc/udev/rules.d/70-persistent-net.rules 修改ip地址命令 vim /etc/sysc...
2019-11-06 21:34:23
425
原创 HDFS的shell命令操作
1.基本语法 bin/hdfs dfs 具体命令 2.参数大全 Usage: Hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-checksum <s...
2019-11-05 15:37:18
204
原创 HDFS文件读写流程(二)
文件读取过程 详细步骤解析 1、客户端通过调用FileSystem对象的open()来读取希望打开的文件。 2、 Client向NameNode发起RPC请求,来确定请求文件block所在的位置; 3、 NameNode会视情况返回文件的部分或者全部block列表,对于每个block,NameNode都会返回含有该 block 副本的 DataNode 地址; 这些返回的 DN 地址,会按照集...
2019-11-05 08:48:46
175
原创 HDFS文件读写流程(一)
文件写入过程 详细步骤解析: client 发起文件上传请求,通过RPC与NameNode建立通讯,NameNode检查目标文件是否已存在,父目录是否存在,返回是否可以上传; client 请求第一个 block 该传输到哪些DataNode服务器上; NameNode 根据配置文件中指定的备份数量以及机架感知原理进行文件分配,返回可用的DataNode 的地址如:A , B , C; cli...
2019-11-05 08:23:33
257
原创 CDH 分布式环境搭建
1.准备环境Linux环境 准备三台linux环境,内存4G或以上,硬盘40G或以上,我们这里使用的是 Centos6.9 64位的操作系统,三台虚拟机一个作为主节点,其他两台作为副节点 虚拟机联网,关闭防火墙,关闭selinux 关闭防火墙命令: service iptables stop chkconfig iptables off 关闭selinux vim /etc/se...
2019-11-04 10:02:36
167
原创 Linux常用命令
01目录(文件夹)常用命令 ** ** ** ** 1.1常用Linux命令的基本使 序号 命令 对应英文 作用 01 ls list 查看当前目录下的内容 02 pwd print working derectory 查看当前所在文件夹 03 cd [目录名] change directory 切换文件夹 04 touch [文件名] touch 如果文件不存在,新建...
2019-10-25 16:47:50
1393
原创 Linux主要目录及内部文件类型
[ ] /bin: 二进制命令所在的目录 /boot : 系统引导程序所需要的文件目录,引导系统开机 /dev :设备软件目录,磁盘,光驱, /etc: 系统配置,启动程序 /home:普通用户的家,目录默认数据存放目录 /lib: 启动系统和运行命令所需的共享库文件和内核模块存放 /mnt:临时挂载储存设备的挂载点,u盘插入光驱无法使用,需要挂载然后使用 /...
2019-10-17 11:40:36
229
原创 Linux中wc命令:
作用: linux中的wc命令用于显示指定文件的行数,单词数,字节数。 使用方法 1.只显示文件的行数/字节数/单词数 参数 英文 含义 -c bytes 字节数 -w words 单词数 -l lines 行数 2.统计多个文件的行数 单词数 字节数 ...
2019-10-16 08:30:41
522
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅