大数据应用期末总评

作业要求来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339

本次作业是在期中大作业的基础上利用hadoop和hive技术进行大数据分析

1. 准备数据(下图为SCV截图):

把CSV添加到/bigdatacase/dataset中

查看前十条数据看是否添加成功

 

编辑pre_deal.sh以进行文件预处理:

查看是否与处理成功:

 

把文件上传到Hadoop上:

把hdfs中“/bigdatabase/dataset”目录下的数据加载到了数据仓库的hive中:

 

3.用Hive对爬虫大作业产生的进行数据分析(10条以上的查询分析)

1、查询票价前十的站点及公交车号

 

select busname,time,piaojia from bus2 ORDER BY(piaojia) DESC;

 

 这些车如果坐的站少会很亏喔!

 

2、查询普遍票价为多少钱

 

select piaojia,count(piaojia) from bus2 group by(piaojia);

 

 图中开出很明显两元的票价最为普遍。

 

3、公交车经过站数情况

 

select busname,zhanshu from bus2 ORDER BY(zhanshu) DESC;

 

 

广州最多的一条线有55个站,身为经历过345A煎熬的广商学生也才31个站。

 4、站数和票价的关系

由图中看出站数和票价没有实际联系。

5、广州汽车公司种类

广州有8个巴士公司。

6、各种汽车公司规模

select gongshi,count(gongshi) from bus2 group by(gonshi);

 

由图可知第一巴士公司是广州的汽车龙头公司拥有的线路最多,第二和第三差不多,最少线路是马会巴士。

7、各公司汽车的票价情况

第一巴士票价情况:

第二巴士票价情况:

第三巴士票价情况

 

马会巴士票价情况:

 

花都恒通票价情况:

 

 

番广公司票价情况:

 

沙溢巴士票价情况:

 

新福利巴士票价情况:

 

 规模最大的第一巴士票价在1-3元并不是越大的公司就有越贵票价的路线,而规模小的公司反而有票价贵的路线。说明票价和公司规模无关。

 

综合上面的分析汽车票价只与路段有关。

8、各路公交车发车时间情况

公交开的时间都很早,一般到晚上10点多就结束。

9、汽车改变道路的原因

配合地铁,公共汽车服务指引和公共中小巴服务指引在该表车道的原因中占比较大。

10、广州公交种类数

广州有701种公交线路。

以上就是我分析的全部内容。

 

转载于:https://www.cnblogs.com/gswyz/p/11038839.html

### 大数据应用开发期末考试相关资料与题目 大数据应用开发作为一门综合性学科,涉及多个方面的知识点和技术栈。以下是关于大数据应用开发期末考试可能涉及到的核心内容及相关试题。 #### 一、基础知识部分 1. **大数据的特点** 数据量大(Volume)、处理速度快(Velocity)、数据类型繁多(Variety)、价值密度低(Value)。这些特征构成了大数据的基础定义[^2]。 2. **大数据计算模式** - 批处理:适用于对大量静态数据进行离线分析。 - 流处理:针对实时产生的动态数据进行即时分析。 3. **Hadoop生态系统核心组件及其功能** Hadoop是一个开源框架,用于大规模数据集的分布式存储和处理。其主要特性包括可靠性、可扩展性和高效性[^2]。具体来说: - **HDFS**:提供分布式文件系统的支持,能够可靠地存储海量数据。安装时需配置`slaves`、`core-site.xml`、`hdfs-site.xml`以及`hadoop-env.sh`等重要文件[^4]。 - **MapReduce**:一种编程模型,用于并行处理大型数据集。 - **YARN**:负责资源管理和调度任务。 #### 二、高级技术部分 1. **ZooKeeper基础概念** ZooKeeper是一种分布式的协调服务工具,在大数据领域常被用来实现分布式锁机制和服务注册等功能。它提供了四种类型的节点: - 持久化节点 - 顺序持久化节点 - 临时节点 - 顺序临时节点[^4] 2. **SQL on BigData** Hive作为一种基于Hadoop的大数据分析工具,允许用户通过类SQL语句(HQL)查询数据。然而,相比于传统的关系型数据库管理系统(RDBMS),Hive具有以下几个显著特点: - 使用HQL而非标准SQL语法; - 将数据存储于HDFS之上; - 借助MapReduce完成复杂运算操作; - 查询延迟较高但能应对更大规模的数据集合[^4]。 3. **NoSQL数据库简介** 随着非结构化数据比例增加,越来越多的企业倾向于采用Nosql数据库替代传统的MySQL/Oracle等关系型数据库解决方案。例如HBase就是一个典型的列族式NoSQL数据库,当构建最小化的分布式环境时至少需要调整三个配置项——`hbase-env.sh`, `hbase-site.xml`, 和`regionservers`列表文件[^4]。 #### 三、实践案例解析 下面给出几道典型考题供参考: ##### 单选题 1. 下面哪一项不属于大数据四大V特征? A. Volume B. Velocity C. Variety D. Virtualization 答案:D 解释:虚拟化并非描述大数据本质属性的一部分。 ##### 判断题 2. 在Hive中执行如下命令会清空目标表原有记录并将满足条件的新纪录写入进去吗? ```sql insert overwrite table student select * from user where age>10; ``` 答案:正确 说明:此SQL片段的作用正是如此,即先删除旧数据再插入符合条件的新条目[^3]。 ##### 简答题 3. 描述一下什么是全样本思维,并举例说明如何利用这种思维方式解决实际问题? 解答要点:全样本思维强调选取具备代表性的子集代替整体参与统计建模过程。比如电商网站为了评估新促销策略效果可以随机挑选一定数量活跃客户群体做测试组对照其他未受影响人群表现差异进而推测全局趋势影响程度[^1]。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值