- 博客(34)
- 收藏
- 关注
原创 任务13:使用MapReduce对天气数据进行ETL(获取各基站ID)
当前在数据集中不包含基站编号字段,每个基站的编号体现在各个文件名的前5位,例如在“450010-99999-2000”文件中包含的是编号为“45001”的基站数据,所以需要将各个基站的编号添加到对应的数据文件中,并且在各个文件中每个字段之间的分隔符也是不一致的,所以也需要对数据进行清理,由于数据量较大,可以考虑使用MapReduce进行数据清理的工作。使用MapReduce对天气数据进行预处理,并在数据文件中添加对应基站ID,并将原来字段间的分隔符改为使用逗号分隔,以便于大Hive中使用该数据集。
2024-01-16 00:30:00
1490
原创 任务11:使用FTP下载NCDC气象数据
数据源为NCDC(美国国家气候数据中心,National Climatic Data Center),隶属于NOAA(美国国家海洋及大气管理局,National Oceanic and Atmospheric Administration)。数据来自NCDC的公开FTP服务器,本项目只选取了中国区域(含港澳台)的观测站点数据,按年打包。时间范围:1942年至今。时间精度:近年的数据大多为3小时数据,少量站点有1小时数据。站点数量:近年为400多个。
2024-01-15 16:45:00
4265
原创 任务9:安装配置Python开发环境
Anaconda指的是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项。[1] 因为包含了大量的科学包,Anaconda 的下载文件比较大(约 531 MB),如果只需要某些包,或者需要节省带宽或存储空间,也可以使用Miniconda这个较小的发行版(仅包含conda和 Python)。2)PyCharm。
2024-01-15 10:30:00
979
原创 任务8:安装大数据统计分析工具Hive
Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。Hive十分适合对数据仓库进行统计分析。
2024-01-15 09:00:00
1033
原创 任务7:安装MySQL数据库
任务描述任务指导MySQL是一个由瑞典MySQL AB 公司开发,属于 Oracle 旗下产品。MySQL 是最流行的关系型数据库管理系统之一,在 WEB 应用方面,MySQL是最好的 RDBMS (Relational Database Management System,关系数据库管理系统) 应用软件之一。任务实现。
2024-01-15 08:00:00
974
原创 任务5:安装并配置Hadoop
任务描述任务指导Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。任务主要内容:下载安装Hadoop包,配置环境变量,配置Hadoop集群1. 创建Hadoop目录2. 解压Hadoop安装包3. 创建Hadoop数据存放的目录(例如:tmp、hdfs、hdfs/data、hdfs/name等目录)4. 配置Hadoop环境变量5. 修改Hadoop配置文件任务实现。
2024-01-14 07:00:00
1058
原创 任务3:配置SSH免密码连接--自用
任务描述任务指导Hadoop分布式集群是由多个节点组成,各节点之间需要通过网络访问,如果每次都需要输入密码,非常不方便,所以可以考虑设置各节点之间免密码连接。任务的内容为在各个节点配置SSH,首先在所有集群服务器节点上生成密钥对,然后再将公钥合并到一个公钥文件中,最后将该文件分发到所有节点,这样就可以实现各节点之间的免密码连通了。任务实现Hadoop分布式集群是由多个节点组成,各节点之间需要通过网络访问,如果每次都需要输入密码,非常不方便,所以可以考虑设置各节点之间免密码连接。
2024-01-12 07:00:00
1179
原创 西安科技大学824数据结构代码题(自用)2017
在入队函数中,通过来判断队列是否已满。如果队列已满,返回0表示入队失败。如果队列未满,将新元素放入队列的后端(使用循环队列的方式),然后更新rear指针。在出队函数中,通过来判断队列是否为空。如果队列为空,返回0表示出队失败。如果队列非空,将前端的元素取出(使用循环队列的方式),将其赋值给传入的指针x,然后更新front指针。// 队列已满,无法入队return 0;// 将新元素放入队列的后端,并更新rear指针return 1;// 入队成功// 队列为空,无法出队return 0。
2023-10-31 12:21:43
109
2
原创 西安科技大学824数据结构代码题(自用)2018年
要求:用自然语言说明思路,给出算法用的数据结构定义,并做出必要的注释。说明算法的复杂度和时间复杂度。用C语言写出对应的算法函数,并加上必要的注释。
2023-10-30 16:43:20
117
1
原创 西安科技大学824数据结构代码题(自用)2019年
首先,我们需要定义一个表示集合元素的结构体。每个结点包含一个数据域(代表集合元素)和一个指针域(用于连接下一个结点)。在这个问题中,我们需要两个链表,分别代表集合A和集合B。
2023-10-29 21:43:45
202
1
原创 西安科技大学824数据结构代码题(自用)2020
快速排序是一种分治算法,它的基本思想是通过一趟排序将待排序的记录分割成独立的两部分,其中一部分的所有记录都比另外一部分的记录小,然后再按此方法对这两部分记录分别进行快速排序,以达到整个序列有序的目的。该算法的平均时间复杂度为O(n log n),其中n为数组的长度。为了从顺序表L中删除所有值为X的元素,我们可以使用两个指针,一个用于遍历顺序表L,另一个用于记录不等于X的元素的位置。即将下标从low到high的元素以r[low]为基准分为两部分,小的在前,大的在后。2、设计算法,判断一个字符串是否是回文。
2023-10-28 19:25:58
130
1
原创 西安科技大学824数据结构代码题(自用)2021
可以利用图的遍历过程判断一个图是否联通,并可得到其连通分量,如果在遍历的过程中,不止一次调用遍历过程,则说明该图是非连通图。因此,想要判定一个无向图是否为联通图,或者有几个连通分量,可设计一个计数变量count,初始时取0,在深度优先遍历算法中,每次调用一次DepthFirstSearch,就给count增加一。1.已知两个单循环链表LA,LB,设计算法,将两个单循环链表首尾相连,并写出时间复杂度。3.请设计一个算法,判断一个无向图是否连通,如果不连通,请输出有几个联通分量,如果联通,请输出结点的序列。
2023-10-27 15:33:06
253
1
原创 pip install web3 Flask -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com
pip install web3 Flask -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com
2023-10-18 14:18:20
151
原创 pip install web3 Flask -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com
pip install web3 Flask -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com
2023-10-18 14:16:20
79
原创 西安科技大学824数据结构代码题(自用)3
要求:(1) 用简洁的语言陈述算法主要思想;(2) 对算法中用到的类型及变量做必要说明;(3) 用类C或类PASCAL写出算法。
2023-10-13 16:20:07
145
原创 西安科技大学824数据结构代码题(自用)2
PBinTree;其中,结点的lchild域和rchild域已分别填有指向其左、右孩子结点的指针,而parent域中的值为空指针(拟作为指向双亲结点的指针域)。请编写一个递归算法,将该存储结构中各结点的parent域的值修改成指向其双亲结点的指针。
2023-10-13 16:14:08
203
原创 西安科技大学824数据结构代码题2007(自用)1
(1) 写出执行example(a,b)的返回值,其中a和b分别为指向存储整数序列{2,4,5,7,9,12}和存储整数序列{2,4,5,7,9}的链表的头指针;(2) 判断两个整数序列是否相等,相等返回1,否则返回0。(3) Min(n,m),其中m,n分别为两个表的表长。(3) 写出算法example的时间复杂度。(1) 执行example(a,b)的返回值:0。(2) 简述算法example的功能;(2) 对算法中用到的类型及变量做必要说明;(1) 用简洁的语言陈述算法主要思想;
2023-10-13 15:53:04
204
原创 2024王道数据结构第二章线性表代码题
这样处理的空间复杂度就变成了O(n),因为有n个元素就得申请n个空间O(1)的话得是那种可以提前确定的,比如某个算法只需要100个字节的内存,无论处理多大规模的数据只要是个定值就行了,无论是100个字节还是100个G,不随数据规模的变化而变化,就是O(1)。从顺序表中删除具有最小值的元素(假设唯一)并由函数返回被删元素的值。空出的位置由最后一个元素填补,若顺序表为空,则显示出错信息并退出运行。:中间变量temp,交换首位两个元素的位置。设计一个高效算法,将顺序表L的所有元素逆置,要求算法的。
2023-07-20 19:00:08
136
1
原创 机器学习的流程:
预测:分类与回归(分类结果是已知的,回归的结果是连续的[两者观察结果是否离散])# 4,建模(算法)-监督学习,无监督学习[无](数据是否有标签),强化学习。# 算法:knn,决策树,svm,逻辑回归,线性回归,集成学习,贝叶斯。# 数据集:(训练集[验证集],测试集) [两者比例8:2/7:3]# 1,获取数据集(网络爬虫;# 2,数据预处理(缺失值,异常值,错误值,数据均衡)# 训练误差[欠拟合](特征太少)so加特征。# 生活从来没有容易的答案。# 测试误差[过拟合]#泛化能力(鲁棒性)
2023-07-20 17:22:12
45
1
原创 网络爬虫——疫情数据的采集
网络爬虫(又称为网络蜘蛛,网络机器人)就是模拟客户端发送网络请求,获取响应数据,一种按照一定的规则,自动地抓取万堆网信息的程序或脚本。2)、定义:模拟客户端发送请求获取响应数据,按照一定规则,自动从万维网上获取信息的程序。1)、网络爬虫与浏览器的区别:浏览器是显示数据的,而网络爬虫是用来采集数据的。2)、response.ecoding:二进制转换字符使用的编码。3)、作用:从万维网上,获取我们需要的信息。requests的作用是发送请求获取响应数据。2)、发送get请求,获取响应。
2023-07-09 15:52:42
104
1
Wangluoanquan .py
2023-06-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人