zhang_zero-优快云博客

原创计算直播间最高在线人数

以下有一份直播间的数据room_iduser_idstart_timeend_time001234352021-11-01 12:09:232021-11-01 12:24:54001446252021-11-01 18:34:262021-11-01 19:35:13002357802021-11-01 16:24:432021-11-01 15:54:22004433252021-11-01 19:04:212021-11-01 21:

2021-12-21 17:50:46 2854

原创限定顺序的密集排名

题目:将挨在一起的CNAME分为一组,计算每条数据对应的分组,具体输入和要求的输出如下:数据输入:CNMAEIDA1A2B3A4A5A6A7D8D9D10B11A12需要得到的输出:CNMAEIDGroupA11A21B32A43A53A63A73D84D94D104

2021-12-21 11:45:10 168

原创 RDD操作

RDD的内部运行方式RDD(Resilient Distributed Datasets)是一个容错的，并行的数据结构，可以让用户显式的将数据存储到磁盘和内存中，并能控制数据的分区提供了一组丰富的操作来操作数据本质是一个只读的分区记录集合，一个RDD可以包含多个分区，每个分区是一个DataSet片段RDD之间可以相互依赖（窄依赖，宽依赖）RDD的分区通过不同的分区，将数据实际映射到不同的Spark节点上RDD的特点只读不能修改：只能通过转换操作生成一个新的RDD分布式存储：一

2021-12-13 23:30:04 2418

原创 HDFS体系结构

NameNode：名称节点职责：（1）是HDFS的主节点，管理员（2）接受客户端（命令行、Java程序）的请求：创建目录、上传数据、下载数据、删除数据等（3）管理和维护HDFS的日志（edits文件）和元信息（fsimage文件）日志文件（edits文件）：记录客户端的所有操作，体现了HDFS的最新状态，是一个二进制文件位置：$HADOOP_HOME/tmp/dfs/name/current edits_inprogress_xxx 代表：正在操作的日志文件 HDFS提供了..

2021-12-04 23:35:31 242

原创 Hadoop的全分布模式安装

规划三台机器：bigdata1，bigdata2，bigdata3bigdata1作为主节点，剩下2台机器作为从节点#以下操作只在主节点进行#在root家目录下创建2个文件夹tools和training#tools用来存储压缩文件包，training用于存放解压后的文件mkdir /root/toolsmkdir /root/training#将准备好的安装包上传到tools目录下scp jdk-8u144-linux-x64.tar.gz root@bigdata1:/root/.

2021-12-04 17:44:09 1950

原创免密登录的原理和配置

免密登录

2021-12-04 15:56:48 789

原创大数据概述

大数据概述

2021-12-04 15:51:10 152

zhang_zero的博客