- 博客(11)
- 收藏
- 关注
原创 头歌大数据作业七Spark SQL数据分析实验保姆级教学
输入密码:输入密码时,命令行窗口不会显示密码,输完之后直接回车;提供了临时视图的创建,创建完临时视图后就可以像操作表一样使用。进入【实验操作桌面】,打开浏览器进入华为云登录页面。同样,可以查询每门课程的最高分数和平均分数。要求查询出相同课程中每个人分数的排名。按钮,进行基础的华为云服务预置。点击实验桌面左上角,账号下方的。查询每门课程最高分数和平均分数。,执行如下命令(使用弹性公网。在【实验操作桌面】,双击。回车,密码获取方式如图;后回车,退出文件编辑;操作前提:登录华为云。后的名字替换为自己的。
2023-12-12 20:59:47
1363
2
原创 大数据--搭建Hadoop和HBASE环境
启动成功后,执行以下命令,查看已成功启动的进程。如果返回以下信息,则表示安装成功。如果返回以下信息,则表示安装成功。执行以下命令开始进入编辑页面。执行以下命令开始进入编辑页面。执行以下命令,创建公钥和私钥。执行以下命令,移动并重命名。执行以下命令,修改配置文件。执行以下命令,将公钥添加到。执行以下命令,解压下载的。依次执行以下命令,启动。伪分布式环境搭建完成。节点内插入如下内容。键退出编辑模式,输入。节点内插入如下内容。键退出编辑模式,输入。执行以下命令,初始化。,显示如下界面则表示。
2023-11-15 20:27:39
189
1
原创 头歌大数据作业八:流计算Flink
Spark最初是为批处理开发的,但现在已经支持流处理,可以在内存中处理大型数据集和流数据,它支持的编程语言包括Java、Python和Scala等。: Flink是一种基于内存的流处理框架,被认为是Storm的替代方案,它支持批处理和流处理,具有比Storm更好的容错性和更好的性能,支持Java和Scala编程语言。综上所述,Spark适合处理大规模数据集和流数据,可以提供全面的功能,Flink是一个灵活的框架,可以在不同场景下进行高度定制,Storm则适合于实时数据流处理。实验中怎么导入数据的?
2023-06-17 15:39:17
908
1
原创 头歌大数据作业七:Spart
(4)更简洁的API:Spark提供了Scala、Java和Python等多种编程语言的API,而且相对于Hadoop MapReduce,Spark的API更加简洁易用,开发人员可以更快速地开发出复杂的分布式应用程序。、试述如下Spark的几个概念:RDD,DAG,阶段,分区,窄依赖,宽依赖 RDD(弹性分布式数据集,Resilient Distributed Dataset):是Spark中最基本的抽象,它是一个不可变的分布式集合,可以被并行地处理。、创建一个数据表,从表里导入数据,程序应该怎么修改?
2023-06-17 15:38:37
1403
2
原创 头歌大数据作业六:Hive
答:HiveQL是类似于SQL的查询语言,它的语法与SQL相似,但是有一些不同之处。Hive与Hadoop生态系统的组件之间的相互关系:Hive与Hadoop生态系统中的其他组件(如HDFS、YARN、MapReduce等)紧密集成,Hive底层使用HDFS存储数据,使用YARN管理作业,使用MapReduce进行计算。Hive与传统数据库的区别:Hive是一种基于Hadoop生态系统的数据仓库,与传统的关系型数据库相比,Hive更适合处理大数据,支持数据的延迟插入和大规模的批处理,而且并不支持事务处理。
2023-06-17 15:37:19
1593
1
原创 头歌大数据作业五:NoSQL和云数据库
课外作业五:NoSQL和云数据库作业详情内容一、SQL云数据库实验 1.《10分钟快速入门RDS》 KooLabs云实验_在线实验_上云实践_云计算实验_AI实验_华为云官方实验平台-华为云 创建数据库名为RDS接自己姓名全拼,创建数据表名为table接自己姓名全拼 公网连通性测试 2.《如何快速连接云数据库RDS MySQL》 如何快速连接云数据库RDS MySQL - 云起实验室-在线实验-上云实践-阿里云开发者社区-阿里云官方实验平台-阿里云 创建数据库名为RDS接自己姓名全拼,创建数
2023-06-17 15:29:49
726
原创 头歌大数据作业四:HBase
优点: 多个Region对象的更新操作所发生的日志修改,只需要不断把日志记录追加到单个日志文件中,不需要同时打开、写入到多个日志文件中 缺点:如果一个Region服务器发生故障,为了恢复其上次的Region对象,需要将Region服务器上的对象,需要将Region服务器上的HLog按照其所属的Region对象进行拆分,然后分发到其他Region服务器上执行恢复操作。每个Store对应了表中的一个列族的存储。每个Region对象又是由多个Store组成的,每个Store对象了表中的一个列族的存储。
2023-06-17 15:27:11
2750
4
原创 头歌大数据作业三:MapReduced与执行wordcount
答: Map函数和Reduce函数各自的输入、输出以及处理过程: Map函数的输入是一对(key, value),输出是一组中间结果,通常以(key', value')的形式表示,其中key'为中间结果的键,value'为中间结果的值。Reduce函数的输入是一组中间结果,输出是一组最终结果,通常以(key'', value'')的形式表示,其中key''为最终结果的键,value''为最终结果的值。答:优点: 减少了HDFS中存储块的数量,从而减少了HDFS元数据的开销,提高了整体的读写性能。
2023-06-17 15:22:50
1768
1
原创 头歌大数据作业一:开通ECS及使用Linux命令
答:大数据对思维方式的重要影响是,它推动了从粗放式的静态推理和分析到实时动态的推理和分析的转变,从单一的数据源和独立的数据管理模式转变为真正的大数据环境和多视角数据管理模式,从理性决策模型转变为不确定性决策模型,从被动观察者转变为主动发现者,有助于拓展数据分析和决策分析的视野、深入研究面向,进而影响到预测决策,推动我们理解世界和管理世界的思维方式。另外,物联网也可以作为大数据的数据采集方式,将有形世界中的物体通过传感器和其他硬件连接起来,从而收集大量的有价值的数据,为大数据分析提供数据源。
2023-06-17 15:21:44
394
1
原创 头歌大数据作业二:搭建Hadoop环境及HDFS
HDFS的数据节点负责处理客户端的读写请求,并将客户端发来的文件分割成存储块,将每个存储块中的数据保存到本地,还会将这些存储块复制到名称节点指定的若干数据节点,以实现冗余存储。答:HDFS联邦中的“块池”,是指每个数据节点所能够存储的最大的数据块数量,它的功能是为了更好的管理数据块的存储空间,可以根据块池大小,为不同的DataNode分配不同的数据块存储空间,当某个NameNode失效时,它所相关的DataNode也可以继续为其他NameNode提供服务,使得整个系统更加高可用性。
2023-06-17 15:21:28
5497
1
原创 python快速编程入门第二版 飞机大战
飞机大战游戏以太空主题的画面为背景,由玩家通过键盘控制英雄,飞机向敌机总部发动进攻,在进攻的过程中既可以让英雄飞机发射子弹或引爆炸弹炸毁敌机获得分数,也可以拾取道具增强英雄的战斗力,一旦被敌机撞毁且生命值为0则游戏结束。
2022-12-22 21:26:34
2277
6
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人