大数据应用期末总评

该博客基于之前搭建的Hadoop对爬取的招聘数据进行分析。先对数据集进行展示、去标题行、预处理等操作,再上传到HDFS并导入数据库。之后对数据进行计数,还从学历要求、城市分布、公司人数、发布公司、职位分类等方面展开分析,发现计算机/互联网职位前景不错。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 

作业要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363

前言:

  根据之前博客搭的hadoop,对之前爬取出来的数据进行分析。

操作:
  1.将爬取的数据集abcde.csv展示出来:

  2.去掉标题行:

  3.对数据集文件进行预处理操作,并生成abcde.txt文件:

  4.启动hadoop集群,启动HDFS:

  5.将数据集上传到hdfs:

  6.创建数据库并导入数据:

7.对导入的数据进行计数,有4980条数据:

8.对学历要求进行分析,发现不限:1677,本科:2415,硕士:253,博士:5

 8.对城市分布进行分析发现北京占数最多,为1642,上海次之,为935,广州第三,593

9.对公司人数进行分析,500以上人数的公司约占四分之一,50人以下的公司占404,说明实习僧招聘的公司规模的人数不算少。

10.对发布的公司进行分组排序,发现帮范儿招聘职位最多,高达64,可能为猎头公司。

11.对职位分类进行了分析,发现计算机/互联网相关的分类占数最多,仍未饱和,前景不错:

 

转载于:https://www.cnblogs.com/GMUK/p/11058734.html

### 大数据应用开发期末考试相关资料与题目 大数据应用开发作为一门综合性学科,涉及多个方面的知识点和技术栈。以下是关于大数据应用开发期末考试可能涉及到的核心内容及相关试题。 #### 一、基础知识部分 1. **大数据的特点** 数据量大(Volume)、处理速度快(Velocity)、数据类型繁多(Variety)、价值密度低(Value)。这些特征构成了大数据的基础定义[^2]。 2. **大数据计算模式** - 批处理:适用于对大量静态数据进行离线分析。 - 流处理:针对实时产生的动态数据进行即时分析。 3. **Hadoop生态系统核心组件及其功能** Hadoop是一个开源框架,用于大规模数据集的分布式存储和处理。其主要特性包括可靠性、可扩展性和高效性[^2]。具体来说: - **HDFS**:提供分布式文件系统的支持,能够可靠地存储海量数据。安装时需配置`slaves`、`core-site.xml`、`hdfs-site.xml`以及`hadoop-env.sh`等重要文件[^4]。 - **MapReduce**:一种编程模型,用于并行处理大型数据集。 - **YARN**:负责资源管理和调度任务。 #### 二、高级技术部分 1. **ZooKeeper基础概念** ZooKeeper是一种分布式的协调服务工具,在大数据领域常被用来实现分布式锁机制和服务注册等功能。它提供了四种类型的节点: - 持久化节点 - 顺序持久化节点 - 临时节点 - 顺序临时节点[^4] 2. **SQL on BigData** Hive作为一种基于Hadoop的大数据分析工具,允许用户通过类SQL语句(HQL)查询数据。然而,相比于传统的关系型数据库管理系统(RDBMS),Hive具有以下几个显著特点: - 使用HQL而非标准SQL语法; - 将数据存储于HDFS之上; - 借助MapReduce完成复杂运算操作; - 查询延迟较高但能对更大规模的数据集合[^4]。 3. **NoSQL数据库简介** 随着非结构化数据比例增加,越来越多的企业倾向于采用Nosql数据库替代传统的MySQL/Oracle等关系型数据库解决方案。例如HBase就是一个典型的列族式NoSQL数据库,当构建最小化的分布式环境时至少需要调整三个配置项——`hbase-env.sh`, `hbase-site.xml`, 和`regionservers`列表文件[^4]。 #### 三、实践案例解析 下面给出几道典型考题供参考: ##### 单选题 1. 下面哪一项不属于大数据四大V特征? A. Volume B. Velocity C. Variety D. Virtualization 答案:D 解释:虚拟化并非描述大数据本质属性的一部分。 ##### 判断题 2. 在Hive中执行如下命令会清空目标表原有记录并将满足条件的新纪录写入进去吗? ```sql insert overwrite table student select * from user where age>10; ``` 答案:正确 说明:此SQL片段的作用正是如此,即先删除旧数据再插入符合条件的新条目[^3]。 ##### 简答题 3. 描述一下什么是全样本思维,并举例说明如何利用这种思维方式解决实际问题? 解答要点:全样本思维强调选取具备代表性的子集代替整体参与统计建模过程。比如电商网站为了评估新促销策略效果可以随机挑选一定数量活跃客户群体做测试组对照其他未受影响人群表现差异进而推测全局趋势影响程度[^1]。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值