- 博客(31)
- 收藏
- 关注
原创 C++ 顺序表前4个函数实现
/构建数据结构线性表sequenlist。//3.取顺序表元素x的前一个元素。//4.取顺序表元素x的后一个元素。//2.取顺序表第i个元素。//1.求顺序表的长度。
2024-09-30 16:06:55
267
原创 NBA 球员数据采集(2)
解决方法: 可以发现,每个 <p> 标签中都有一个 <strong> 标签,且其内容并不重复,这样我们就可以循环的去判断匹配 <strong> 标签中的内容,print("--------------------------开始爬取--------------------------")print("--------------------------爬取完成--------------------------")player_age 球员年龄 球员详情页,动态加载数据,需要手动计算。
2024-09-30 11:55:01
959
原创 NBA 球员数据采集(1)
由于体重列表栏中部分球员存在空值,我们使用 Xpath 解析后会导致排列顺序混乱,所以体重数据我们在球员详情页中获取。print("--------------------------开始爬取--------------------------")print("--------------------------爬取完成--------------------------")print("--------------------------开始爬取--------------------------")
2024-09-30 11:52:45
900
原创 房贷计算器
print("每月月供参考(元):{:.2f}元".format(mon_pay))print("每月月供参考(元):{:.2f}元".format(mon_pay))print("还款总额(元):{:.2f}元".format(all_pay))print("还款总额(元):{:.2f}元".format(all_pay))print("每月月供参考(元):{:.2f}元".format(mon_pay))print("每月月供参考(元):{:.2f}元".format(mon_all_pay))
2024-09-28 16:34:53
1251
原创 第三方库清单
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple Django==3.2.8pip install -i https://pypi.tuna.tsinghua.edu.cn/simple lxml==4.6.3pip install -i https://pypi.tuna.tsinghua.edu.cn/simple numpy==1.21.5pip install -i https://pypi.tuna.tsinghua.edu.cn
2024-09-28 16:23:29
180
原创 网络操作系统(Linux服务器安装与基本配置)
某公司局域网已经初具规模,并且已经联入 Internet,公司的计算机中心新购置了一台服务器,用于搭建对外发布公司信息的网站平台和运行公司内部的业务信息系统的服务器端软件,通过分析后,公司决定使用 linux 平台。5.通过命令新建目录/a,将目录/pz 及目录下的所有文件复制到目录/a 中,将命令界面截图保存到物理机上。4.设置/pz 目录下的文件本组人可读可写、其他组人员无权访问使用,将命令界面截图保存到物理机上。1.命令创建目录/pz,访问该目录,将命令界面截图保存到物理机上。
2024-09-28 16:02:02
1009
原创 SparkSQL数据源
save()方法支持设置保存模式,使用可用于指定将Dataset保存到数据源的预期行为,指定如何处理现有数据(例如,执行时设置类型为Overwrite,则数据将在写出新数据之前被删除。)但需要注意的这些保存模式不使用任何锁定并且不是原子的。SaveModeScala/Java含义(默认)将Dataset保存到数据源时,如果数据已存在,则会引发异常。将Dataset保存到数据源时,如果数据/表已存在,则Dataset的内容应附加到现有数据。覆盖模式意味着在将Dataset。
2024-04-24 17:44:19
1656
原创 运算符的使用
在 Python 中,变量不需要声明的,变量的赋值操作就是变量的声明和定义过程,这个过程会在内存中为我们开辟一段存储空间存放我们所声明的变量。tom 没有说谎,jerry 也没有说谎,则逻辑与表示 tom 与 jerry 都没有说谎,逻辑与的值为真。本关介绍 Python 中的一些基本运算符,并要求对给定的苹果和梨的数量进行算术运算、比较、赋值运算,然后输出相应的结果。# 先将var1与var2按位与,然后计算得到的值与var3的和,最后后将这个值乘以var4,并将最终结果存入result变量。
2024-04-24 17:17:51
584
原创 Python简介
A、编译型B、解释型C、A 和BD、机器语言2、(A )开发环境是Python内置的开发环境A、idleB、pycharmC、anacondaD、jupyter3、(D )开发环境是基于计算全过程的,即将文档、代码和运行结果集中在一起的开发环境A、idleB、pycharmC、anacondaD、jupyter4、关于Python2.7和Python3.7兼容性描述正确的是( C)A、Python2.7兼容Python3.7B、Python3.7兼容Python2.7C、二者不兼容D、不确定。
2024-04-24 17:07:58
921
原创 MapReduce 基础实战
MapReduce是一种可用于数据处理的编程模型,我们现在设想一个场景,你接到一个任务,任务是:挖掘分析我国气象中心近年来的数据日志,该数据日志大小有3T,让你分析计算出每一年的最高气温,如果你现在只有一台计算机,如何处理呢?我想你应该会读取这些数据,并且将读取到的数据与目前的最大气温值进行比较。比较完所有的数据之后就可以得出最高气温了。不过以我们的经验都知道要处理这么多数据肯定是非常耗时的。如果我现在给你三台机器,你会如何处理呢?
2024-04-24 16:50:31
1184
原创 HDFS 理论讲解
HDFS 是 Hadoop 自带的分布式文件系统,即 Hadoop Distributed File System。HDFS 是一个使用 Java 语言实现的分布式、可横向扩展的文件系统。
2024-04-24 16:32:54
839
原创 Hadoop概述
Hadoop 是一种分析和处理大数据的软件平台,是一个用 Java 语言实现的 Apache 的开源软件框架,在大量计算机组成的集群中实现了对海量数据的分布式计算。Hadoop 采用 MapReduce 分布式计算框架,根据 GFS 原理开发了 HDFS(分布式文件系统),并根据 BigTable 原理开发了 HBase 数据存储系统。Hadoop 和 Google 内部使用的分布式计算系统原理相同,其开源特性使其成为分布式计算系统的事实上的国际标准。
2024-04-24 16:29:50
680
2
原创 SparkSQL简单使用
Spark SQL是用来操作结构化和半结构化数据的接口。当每条存储记录共用已知的字段集合,数据符合此条件时,Spark SQL就会使得针对这些数据的读取和查询变得更加简单高效。具体来说,Spark SQL提供了以下三大功能: (1)Spark SQL可以从各种结构化数据源(例如JSONParquet等)中读取数据。(2)Spark SQL不仅支持在Spark程序内使用SQL语句进行数据查询,也支持从类似商业智能软件Tableau这样的外部工具中通过标准数据库连接器(JDBC/ODBC)连接。
2024-04-24 15:53:47
680
3
原创 Spark算子 - Python
2.创建一个内容为[("python", 1), ("scala", 2), ("python", 3), ("python", 4), ("java", 5)]的列表List。# 2.创建一个内容为[("1", 1), ("2", 2), ("3", 3), ("4", 4), ("5", 5)]的列表List。偶数转换成该数的平方。奇数转换成该数的立方。# 2.创建一个内容为(1, 2, 3, 4, 5, 6, 5, 4, 3, 2, 1)的列表List。
2024-04-22 10:50:57
762
原创 Spark算子 - JAVA版本
将字符串进行切割,例如:"python java" -> "python","java","java scala" -> "java","scala"* 将字符串与该字符串的长度组合成一个元组,例如:dog --> (dog,3),salmon --> (salmon,6)* 将字符串与该字符串的长度组合成一个元组,例如:dog --> (dog,3),salmon --> (salmon,6)
2024-04-22 10:41:33
2261
原创 Spark算子--Scala版本
/拆分重新组合(例:(key,(v2.0,v2.5,v3.0))拆分成(key,(v2.0,v2.5))(key,(v2.5,v3.0)))//按需求整理输出格式(例:(2017-08-14,Lily,Facebook,360 Shop,v1.2,v2.0))//过滤版本号重复的(例:(v2.0,v2.0))以及版本号只有一个的(例(v1.0))//按key分组,key是除城市字段和版本号字段以外的所有字段,value是版本号。//第一步:通过获取rdd中每个元素的长度创建新的rdd1。
2024-04-22 10:23:53
2434
原创 Spark算子综合案例 - Scala篇
补充完代码后,点击测评,平台会对你编写的代码进行测试,当你的结果与预期输出一致时,即为通过。//2.切分压平、直接好友拼接加入集合、遍历、间接好友拼接、返回集合。//4判断每一行里如果为直接好友将其次数设为0,如果不是+1。//5过滤掉次数为0的剩下的就是间接好友及其次数。区域内进行代码补充,完成统计间接好友的数量的程序。else ("直接好友", 0)请仔细阅读右侧代码,根据方法内的提示,在。知识完成 " 好友推荐 " 的程序。数据说明(第二行为例): 这个人叫。在间接好友关系中出现的次数为。
2024-04-22 09:52:03
1492
1
原创 RDD的创建 - Python
PySpark可以从Hadoop支持的任何存储源创建分布式数据集,包括本地文件系统,HDFSCassandraHBaseAmazon S3等。Spark支持文本文件,和任何其他。文本文件RDD可以使用创建的textFile方法。此方法需要一个URI的文件(本地路径的机器上,或一个等 URI),并读取其作为行的集合。
2024-04-22 09:44:42
363
1
原创 RDD的创建 -Java
/第二步:将文件中每行的数据切分,得到自己想要的返回值。本关任务:读取文本文件,按照文本中数据,输出老师及其出现次数。//第一步:以外部文件方式创建RDD。//第三步:将相同的key进行聚合。为了完成本关任务,你需要掌握:1.读取文件创建。函数后会进行一定的操作把每个元素都转换成一个。//第四步:将结果收集起来。处补充代码,输出老师姓名和出现次数。根据提示,在右侧编辑器。,2.本关所需算子。
2024-04-22 09:42:04
703
原创 RDD的创建 -Scala
/第二步:将文件中每行的数据切分,得到自己想要的返回值。本关任务:读取文本文件,按照文本中数据,输出老师及其出现次数。处补充代码,按每位老师出现的次数降序,输出老师姓名和出现次数。为了完成本关任务,你需要掌握:1.读取文件创建。中的每个元素都执行一个指定的函数来产生一个新的。//第一步:以外部文件方式创建RDD。//第三步:将相同的key进行聚合。//第四步:按出现次数进行降序。根据提示,在右侧编辑器。,2.本关所需算子。
2024-04-22 09:38:02
593
原创 RDD概述
RDD是Spark的核心抽象,即弹性分布式数据集代表一个不可变,可分区,里面元素可并行计算的集合。其具有数据流模型的特点:自动容错,位置感知性调度和可伸缩性。在Spark中,对数据的所有操作不外乎创建RDD、转化已有RDD以及调用RDD操作进行求值。RDD结构图。
2024-04-18 18:07:16
332
1
原创 SparkContext初始化--Java篇
/第二步:初始化SparkContext。//第三步:关闭SparkContext。根据提示,在右侧编辑器补充代码,使程序正确运行,输出。//第一步:设置SparkConf。本关任务:掌握如何实现。
2024-04-18 18:01:29
691
1
原创 SparkContext初始化--Scala篇
根据提示,在右侧编辑器补充代码,使程序正确运行,输出。//第二步:初始化SparkContext。//第三步:关闭SparkContext。//第一步:设置SparkConf。
2024-04-18 17:42:14
619
1
原创 Spark运行架构及流程
弹性分布式数据集,是分布式内存的一个抽象概念,提供了一种高度受限的共享内存模型。:指的是在集群上获取资源的外部服务。3、Stage的task数量由什么决定 A。通信,进行资源申请、任务的分配和监控等,当。,代表一组关联的,相互之间没有。依赖关系的任务组成的任务集。1、以下层级关系正确的是?应用程序的运行环境,在。的一个进程,负责运行。的基本调度单位,一个。
2024-04-18 17:34:52
753
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人