- 博客(6)
- 收藏
- 关注
原创 【Git的安装与一些常用的命令】
如果觉得git push origin master麻烦,我们可以使用git push命令,但是前提是需要设定关系。如果我们创建的新的文件夹和 .git 这个文件夹是同一级的话,这个新的文件夹就被称为工作目录。1.在电脑的任意位置创建一个空目录(例如test)作为我们的本地Git仓库。这个ID可以通过git log或者git-log(自己配置的)查询。中途可以使用git-log或者git log查看他们的变化。如果要看分支和分支之间的关系,也是git-log就行。
2023-09-27 16:31:32
113
原创 探讨hadoop的心跳机制
例如,在块复制过程中,BPServiceActor会协调DataNode之间的块传输,并通知NameNode块复制的状态,以确保数据的一致性和可靠性。心跳的频率是在Hadoop的配置文件中配置的。对容器的维护和管理:RMNodeImpl类中的一些方法用于维护和管理节点上的容器,例如记录容器状态的变化、维护容器的启动和关闭、处理容器的状态更新等。对节点的心跳和资源管理:RMNodeImpl类中的一些方法用于发送节点的心跳和管理节点的资源,例如发送心跳、更新节点资源、处理节点上的容器等。
2023-06-11 15:39:37
1152
1
原创 【关于Hive和HBase的一些思考以及使用hive统计图书销售量】
Hadoop:Hive 和 HBase 均是运行在 Hadoop 上的。Hadoop 是一个开源的分布式计算平台,可用于存储和处理大规模数据集。MapReduce:MapReduce 是 Hadoop 中的一种计算模型,用于处理大规模数据集。Hive 和 HBase 都使用了 MapReduce 进行数据处理。分布式文件系统(DFS):Hadoop 的 HDFS 是一个基于分布式文件系统的分布式存储系统,用于存储大规模数据集。Hive 和 HBase 都使用了 HDFS 进行数据存储。
2023-06-11 15:29:03
315
1
原创 【关于YARN与MapReduce的一些思考以及使用mapreduce对图书销售量进行统计】
它需要按照每一年统计不同书店的图书销售量排行前三的图书。就有问题了:1.原数据的日期是string类型,不是data类型,所以需要转化。2.要按照每一年统计的话,还需要提取日期中的年份。3.相同书店的相同图书的销售量要按照年份来累加。4.最后取出前三就行。
2023-06-10 10:25:22
548
原创 实验四 Hive实践
使用mapreduce对搜狗一天的数据进行数据清洗,就是将个数不等的空格,以及有些行有6个字段,有些达不到6个字段。数据清洗在分割数据存储成表格,再在hive中分析数据一天内,一共搜索关键词的个数以及分析结果第一次点击的次数来看,排名越靠前,点击次数越多。
2023-06-09 00:18:35
1422
原创 掌握Flume的安装、配置和简单使用。掌握Sqoop的安装、配置和简单使用。
简单使用flume工具 完成通过Avro Source接收外部数据源,数据缓存在memory channel中,然后通过Logger sink将打印出数据,即:avro source --> memory channel --> logger sink 简单使用sqoop工具MySQL与HDFS数据互导 HDFS—导出到–> MySQL
2023-06-08 19:05:29
513
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人