辅助线——hadoop

计算框架

spark vs mapreduce

Spark 在内存中处理数据,而 Hadoop MapReduce 是通过 map 和 reduce 操作在磁盘中处理数据。因此从这个角度上讲 Spark 的性能应该是超过 Hadoop MapReduce 的。
Spark 每次将处理过程加载到内存之中,然后该操作作为缓存一直保持在内存中直到下一步操作。如果 Spark 与其它资源需求型服务一同运行在 Hadoop YARN 上,又或者数据块太大以至于不能完全读入内存,此时 Spark 的性能就会有很大的降低。

spark的action transformation

transformation: 得到一个新的rdd
action:得到一个值或者一个结果

transformation:
map
flatmap
filter
action:
reduce
collect
count
链接

如何划分stage
链接
链接中的是否重组,就是宽依赖和窄依赖:
宽依赖往往对应着shuffle操作,需要在运行过程中将同一个父RDD的分区传入到不同的子RDD分区中,中间可能涉及多个节点之间的数据传输;而窄依赖的每个父RDD的分区只会传入到一个子RDD分区中,通常可以在一个节点内完成转换。
如果是窄依赖的分在一个stage里,宽依赖分成两个stage.
链接

### 基于 Hadoop 的大作业示例及项目 Ideas #### 使用场景分析 大数据处理框架如 Hadoop 已经广泛应用于多个行业,包括但不限于金融、医疗保健、零售等领域。通过分布式文件系统 (HDFS) 和 MapReduce 计算引擎的支持,能够高效地存储并处理海量数据集。 #### 大作业建议方向 ##### 1. 社交媒体数据分析平台构建 利用 Twitter 或微博 API 收集公开发布的推文或帖子作为原始数据源。采用 Hadoop 生态圈内的工具链完成如下任务: - 数据采集与预处理:Flume 可用于日志收集;Sqoop 则适合批量导入关系型数据库中的结构化记录。 - 存储管理:将清洗后的文本存入 Hive 表格以便后续查询统计。 - 分析挖掘:借助 Pig Latin 编写脚本执行 ETL 流程(Extract, Transform, Load),进而实施情感倾向分类算法训练等工作流。 ##### 2. 探索性研究——城市交通流量预测建模 选取某大城市内若干主要干道上的车辆通行情况监测点位所获取的历史轨迹信息为样本素材。具体操作步骤概述如下: - 构建离线批处理管道来解析来自传感器设备上报的时间戳坐标序列; - 应用 Spark MLlib 提供的机器学习库函数拟合回归曲线方程式以表征不同时间段内的车流量变化规律特征; - 设计可视化仪表板展示关键绩效指标(KPIs),辅助决策者优化信号灯配时方案等措施缓解拥堵状况。 ##### 3. 日志异常检测系统的搭建 针对企业级 IT 运维环境下的服务器访问请求日志进行深入剖析。核心功能模块规划涉及以下几个方面: - 实现自定义输入格式类读取多台主机产生的非标准格式的日志条目; - 结合 Mahout 中聚类方法识别潜在的安全威胁行为模式; - 输出告警通知至指定邮箱地址列表提醒管理员及时介入调查可疑活动迹象。 ```python from pyspark.sql import SparkSession spark = SparkSession.builder.appName("LogAnalysis").getOrCreate() # 加载日志数据 logs_df = spark.read.text("/path/to/log/files") # 对日志内容做初步清理转换 cleaned_logs = logs_df.filter(logs_df.value.contains('ERROR')).rdd.map(lambda line: line.split()) # 执行进一步的数据加工逻辑... ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值