Hadoop Streaming

本文介绍如何使用 Hadoop Streaming 特性通过 Unix 命令和脚本进行数据处理。包括使用内置命令直接统计文件记录数及应用 Python 和 C++ 脚本抽取数据样本的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

(From the book Hadoop in Action, Section 4.5)


1. Streaming with Unix commands

$ bin/hadoop jar contrib/streaming/hadoop-streaming-1.0.4.jar -input input/input.txt -output output -mapper 'cut -f 2 -d ,' -reducer 'uniq'
$ bin/hadoop jar contrib/streaming/hadoop-streaming-1.0.4.jar -D mapred.reduce.tasks=0 -input output -output output_a -mapper 'wc -l'

The mapper directly output the record count without any reducer, so we set mapred.reduce.tasks to 0 and do not specify the -reducer option at all.


2. Streaming with scripts

For example, apply a python script in Hadoop to get a smaller sample of a data set. Below is RandomSample.py:

#!/usr/bin/env python

import sys, random

for line in sys.stdin:
	if (random.randint(1, 100) <= int(sys.argv[1])):
		print(line.strip())

Then, execute with the following command (on Cygwin in Windows):

$ bin/hadoop jar contrib/streaming/hadoop-streaming-1.0.4.jar -D mapred.reduce.tasks=1 -input workspace/data/cite75_99.txt -output workspace/outputa -mapper 'python2.7.exe workspace/RandomSample.py 10' -file workspace/RandomSample.py

Hadoop Streaming supports a -file option to package your executable file as part of the job submission.

As we have not specified any particular reducer, it will use the default IdentityReducer.

C++ code can also be applied: (compile .cpp to get .exe)

$ bin/hadoop jar contrib/streaming/hadoop-streaming-1.0.4.jar -D mapred.reduce.tasks=1 -input workspace/data/cite75_99.txt -output workspace/outputc -mapper 'workspace/RandomSample.exe 10' -file workspace/RandomSample.exe







基于Spring Boot搭建的一个多功能在线学习系统的实现细节。系统分为管理员和用户两个主要模块。管理员负责视频、文件和文章资料的管理以及系统运营维护;用户则可以进行视频播放、资料下载、参与学习论坛并享受个性化学习服务。文中重点探讨了文件下载的安全性和性能优化(如使用Resource对象避免内存溢出),积分排行榜的高效实现(采用Redis Sorted Set结构),敏感词过滤机制(利用DFA算法构建内存过滤树)以及视频播放的浏览器兼容性解决方案(通过FFmpeg调整MOOV原子位置)。此外,还提到了权限管理方面自定义动态加载器的应用,提高了系统的灵活性和易用性。 适合人群:对Spring Boot有一定了解,希望深入理解其实际应用的技术人员,尤其是从事在线教育平台开发的相关从业者。 使用场景及目标:适用于需要快速搭建稳定高效的在线学习平台的企业或团队。目标在于提供一套完整的解决方案,涵盖从资源管理到用户体验优化等多个方面,帮助开发者更好地理解和掌握Spring Boot框架的实际运用技巧。 其他说明:文中不仅提供了具体的代码示例和技术思路,还分享了许多实践经验教训,对于提高项目质量有着重要的指导意义。同时强调了安全性、性能优化等方面的重要性,确保系统能够应对大规模用户的并发访问需求。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值