大数据应用期末总评

本作业来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363

一、将爬虫大作业产生的csv文件上传到HDFS

将爬虫大作业中爬取到的数据文件csv导入到/usr/local/bigdatacase/dataset目录下,并且查看CSV:

二.对CSV文件进行预处理生成无标题文本文件

利用bash ./pre.deal.sh 恶魔人cryb.csv 恶魔人crybaby.txt对文本进行预处理,pre.deal.sh内容如下:

 

处理后的恶魔人crybaby.txt内容如下:

 用命令去除csv的第一行

然后用start-all.sh打开hdfs服务,用jps命令查看启动情况:

在HDFS上建立/dataset文件夹并且把恶魔人crybaby.csv上传到HDFS中

在HDFS上查看csv内容

 

三、把hdfs中的文本文件导入到数据仓库Hive中

在hive中新建一个名为crybaby的table并use

 

新建一个pinglun2的表把数据导入到其中

 

四.用Hive对爬虫大作业产生的进行数据分析(10条以上的查询分析)

(1)最新10条评论

(2)点赞数>100的评论

(3)总评论条数

(4)不为同一ID发表的评论条数

(5)点赞数为0的评论

(6)点赞数>100且<500的评论

(7)去除重复评论内容的评论数

(8)点赞数倒数10位的评论

(9)点赞数前10位的评论

(10)点赞数前10位的用户

 


五、爬虫数据分析与总结

   通过hive数据库查询统计,在爬取的数据的点赞数前10位的评论中我们可以大致看出《恶魔人crybaby》是一部引起人们反思人性、好评度高的好作品,评论中基本都对该作品进行褒美或者是对作品主题“黄暴虐中呼唤爱”作出的感悟,并且得到多数人赞同。而对不相同用户的发表评论条数与去除重复评论内容的评论数进行统计可知对该作品评论可信度高,没有雇请水军刷没有营养的评论的情况。

    在本学期的python爬虫的学习中,我对网页的构成与数据的传输有更加深入的了解,也清楚了对爬取的大型数据在linux虚拟机上处理的大致流程。在爬虫学习过程中遇到文件转换乱码与爬取时被反爬的问题,比如我在豆瓣爬取短评时我的IP地址被封禁,账号被永封,在今后的学习中我会努力学习提高爬虫的反爬性能,爬取更多更有效的数据。

 

 

 

 

 

 

 

 

 

转载于:https://www.cnblogs.com/lqscmz/p/11061155.html

### 大数据应用开发期末考试相关资料与题目 大数据应用开发作为一门综合性学科,涉及多个方面的知识点和技术栈。以下是关于大数据应用开发期末考试可能涉及到的核心内容及相关试题。 #### 一、基础知识部分 1. **大数据的特点** 数据量大(Volume)、处理速度快(Velocity)、数据类型繁多(Variety)、价值密度低(Value)。这些特征构成了大数据的基础定义[^2]。 2. **大数据计算模式** - 批处理:适用于对大量静态数据进行离线分析。 - 流处理:针对实时产生的动态数据进行即时分析。 3. **Hadoop生态系统核心组件及其功能** Hadoop是一个开源框架,用于大规模数据集的分布式存储和处理。其主要特性包括可靠性、可扩展性和高效性[^2]。具体来说: - **HDFS**:提供分布式文件系统的支持,能够可靠地存储海量数据。安装时需配置`slaves`、`core-site.xml`、`hdfs-site.xml`以及`hadoop-env.sh`等重要文件[^4]。 - **MapReduce**:一种编程模型,用于并行处理大型数据集。 - **YARN**:负责资源管理和调度任务。 #### 二、高级技术部分 1. **ZooKeeper基础概念** ZooKeeper是一种分布式的协调服务工具,在大数据领域常被用来实现分布式锁机制和服务注册等功能。它提供了四种类型的节点: - 持久化节点 - 顺序持久化节点 - 临时节点 - 顺序临时节点[^4] 2. **SQL on BigData** Hive作为一种基于Hadoop的大数据分析工具,允许用户通过类SQL语句(HQL)查询数据。然而,相比于传统的关系型数据库管理系统(RDBMS),Hive具有以下几个显著特点: - 使用HQL而非标准SQL语法; - 将数据存储于HDFS之上; - 借助MapReduce完成复杂运算操作; - 查询延迟较高但能应对更大规模的数据集合[^4]。 3. **NoSQL数据库简介** 随着非结构化数据比例增加,越来越多的企业倾向于采用Nosql数据库替代传统的MySQL/Oracle等关系型数据库解决方案。例如HBase就是一个典型的列族式NoSQL数据库,当构建最小化的分布式环境时至少需要调整三个配置项——`hbase-env.sh`, `hbase-site.xml`, 和`regionservers`列表文件[^4]。 #### 三、实践案例解析 下面给出几道典型考题供参考: ##### 单选题 1. 下面哪一项不属于大数据四大V特征? A. Volume B. Velocity C. Variety D. Virtualization 答案:D 解释:虚拟化并非描述大数据本质属性的一部分。 ##### 判断题 2. 在Hive中执行如下命令会清空目标表原有记录并将满足条件的新纪录写入进去吗? ```sql insert overwrite table student select * from user where age>10; ``` 答案:正确 说明:此SQL片段的作用正是如此,即先删除旧数据再插入符合条件的新条目[^3]。 ##### 简答题 3. 描述一下什么是全样本思维,并举例说明如何利用这种思维方式解决实际问题? 解答要点:全样本思维强调选取具备代表性的子集代替整体参与统计建模过程。比如电商网站为了评估新促销策略效果可以随机挑选一定数量活跃客户群体做测试组对照其他未受影响人群表现差异进而推测全局趋势影响程度[^1]。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值