使用Python和mrjob分析AWS S3日志的MapReduce实践-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00480/article/details/148360764

使用Python和mrjob分析AWS S3日志的MapReduce实践

data-science-ipython-notebooks donnemartin/data-science-ipython-notebooks: 是一系列基于 IPython Notebook 的数据科学教程，它涉及了 Python、 NumPy、 pandas、 SQL 等多种数据处理工具。适合用于学习数据科学和分析，特别是对于需要使用 Python 和 SQL 等工具进行数据分析和处理的场景。特点是数据科学教程、IPython Notebook、Python、SQL。项目地址: https://gitcode.com/gh_mirrors/da/data-science-ipython-notebooks

前言

在大数据时代，日志分析是了解系统运行状况、用户行为的重要途径。本文将介绍如何使用Python的mrjob框架来分析AWS S3的访问日志，这是一个来自知名数据科学项目中的实用案例。

什么是mrjob？

mrjob是一个强大的Python库，它允许开发者：

用纯Python编写多步骤的MapReduce作业
在本地机器上进行测试
在Hadoop集群上运行
使用Amazon Elastic MapReduce(EMR)在云端运行

环境准备

安装mrjob非常简单：

pip install mrjob

或者从源代码安装：

python setup.py install

S3日志分析实战

日志格式解析

AWS S3的日志格式包含17个字段，我们需要解析这些字段来获取有价值的信息。主要关注的字段包括：

请求时间
请求者ID
用户代理(User Agent)
操作类型(Operation)

MapReduce实现

核心的MapReduce作业分为两个阶段：

Mapper阶段：
- 使用正则表达式解析日志行
- 提取关键字段并标准化时间格式
- 输出键值对：(日期时间, 请求者, 用户代理, 操作), 1
Reducer阶段：
- 对相同键的值进行求和
- 输出格式化的结果

class MrS3LogParser(MRJob):
    # 定义日志解析模式和字段索引
    LOGPATS = r'(\\S+) (\\S+) \\[(.*?)\\] (\\S+) (\\S+) ' \
              r'(\\S+) (\\S+) (\\S+) (\"([^\"]+)\"|-) ' \
              r'(\\S+) (\\S+) (\\S+) (\\S+) (\\S+) (\\S+) ' \
              r'(\"([^\"]+)\"|-) (\"([^\"]+)\"|-)'
    
    def mapper(self, _, line):
        # 解析日志行并提取关键字段
        pass
    
    def reducer(self, key, values):
        # 聚合统计结果
        pass

时间格式处理

日志中的时间格式为"22/Jul/2013:21:04:17 +0000"，我们需要将其转换为更友好的"YYYY-MM-DD HH:MM:SS"格式：

def clean_date_time_zone(self, raw_date_time_zone):
    date_parsed = raw_date_time_zone[:raw_date_time_zone.find(":")]
    time_parsed = raw_date_time_zone[raw_date_time_zone.find(":") + 1:
                                 raw_date_time_zone.find("+") - 1]
    time_zone_parsed = raw_date_time_zone[raw_date_time_zone.find("+"):]
    
    date_struct = time.strptime(date_parsed, "%d/%b/%Y")
    converted_date = time.strftime("%Y-%m-%d", date_struct)
    date_time = converted_date + " " + time_parsed
    
    return converted_date, date_time, time_zone_parsed

运行MapReduce作业

本地运行

python mr_s3_log_parser.py input_data.txt > output_data.txt

在Amazon EMR上运行

python mr_s3_log_parser.py -r emr s3://bucket-source/ --output-dir=s3://bucket-dest/

单元测试

良好的测试是保证代码质量的关键。我们为日志解析器编写了单元测试，包括：

测试无效日志行的处理
测试有效日志行的解析
测试时间格式转换功能

class TestMrS3LogParser(unittest.TestCase):
    def test_invalid_log_lines(self):
        # 测试无效日志行的处理
        pass
    
    def test_valid_log_lines(self):
        # 测试有效日志行的解析
        pass
    
    def test_clean_date_time_zone(self):
        # 测试时间格式转换
        pass

运行测试：

python test_mr_s3_log_parser.py -v

配置Amazon EMR

要成功在EMR上运行作业，需要提供适当的配置：

runners:
  emr:
    aws_access_key_id: __ACCESS_KEY__
    aws_secret_access_key: __SECRET_ACCESS_KEY__
    aws_region: us-east-1
    ec2_key_pair: EMR
    ec2_key_pair_file: ~/.ssh/EMR.pem
    ssh_tunnel_to_job_tracker: true
    ec2_master_instance_type: m3.xlarge
    ec2_instance_type: m3.xlarge
    num_ec2_instances: 5
    s3_scratch_uri: s3://bucket/tmp/
    s3_log_uri: s3://bucket/tmp/logs/
    enable_emr_debugging: True
    bootstrap:
    - sudo apt-get install -y python-pip
    - sudo pip install --upgrade simplejson