- 博客(7)
- 收藏
- 关注
原创 计算直播间最高在线人数
以下有一份直播间的数据room_iduser_idstart_timeend_time001234352021-11-01 12:09:232021-11-01 12:24:54001446252021-11-01 18:34:262021-11-01 19:35:13002357802021-11-01 16:24:432021-11-01 15:54:22004433252021-11-01 19:04:212021-11-01 21:
2021-12-21 17:50:46
2854
原创 限定顺序的密集排名
题目:将挨在一起的CNAME分为一组,计算每条数据对应的分组,具体输入和要求的输出如下:数据输入:CNMAEIDA1A2B3A4A5A6A7D8D9D10B11A12需要得到的输出:CNMAEIDGroupA11A21B32A43A53A63A73D84D94D104
2021-12-21 11:45:10
168
原创 RDD操作
RDD的内部运行方式RDD(Resilient Distributed Datasets)是一个容错的,并行的数据结构,可以让用户显式的将数据存储到磁盘和内存中,并能控制数据的分区提供了一组丰富的操作来操作数据本质是一个只读的分区记录集合,一个RDD可以包含多个分区,每个分区是一个DataSet片段RDD之间可以相互依赖(窄依赖,宽依赖)RDD的分区通过不同的分区,将数据实际映射到不同的Spark节点上RDD的特点只读不能修改:只能通过转换操作生成一个新的RDD分布式存储:一
2021-12-13 23:30:04
2418
原创 HDFS体系结构
NameNode:名称节点职责:(1)是HDFS的主节点,管理员(2)接受客户端(命令行、Java程序)的请求:创建目录、上传数据、下载数据、删除数据等(3)管理和维护HDFS的日志(edits文件)和元信息(fsimage文件) 日志文件(edits文件):记录客户端的所有操作,体现了HDFS的最新状态,是一个二进制文件 位置:$HADOOP_HOME/tmp/dfs/name/current edits_inprogress_xxx 代表:正在操作的日志文件 HDFS提供了..
2021-12-04 23:35:31
242
原创 Hadoop的全分布模式安装
规划三台机器:bigdata1,bigdata2,bigdata3bigdata1作为主节点,剩下2台机器作为从节点#以下操作只在主节点进行#在root家目录下创建2个文件夹tools和training#tools用来存储压缩文件包,training用于存放解压后的文件mkdir /root/toolsmkdir /root/training#将准备好的安装包上传到tools目录下scp jdk-8u144-linux-x64.tar.gz root@bigdata1:/root/.
2021-12-04 17:44:09
1950
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅