27、数据处理与分析：从用户会话到气候模型及图片服务的实践

transformer2023

于 2025-08-16 11:16:33 发布

阅读量42

点赞数

CC 4.0 BY-SA版权

分类专栏：解锁Hive：大数据查询的SQL之道文章标签：数据处理用户会话分析气候模型评估

本文链接：https://blog.youkuaiyun.com/transformer2023/article/details/150507015

解锁Hive：大数据查询的SQL之道专栏收录该内容

30 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

数据处理与分析：从用户会话到气候模型及图片服务的实践

1. 用户会话数据处理流程

在处理用户会话数据时，我们需要经过多个步骤来完成对数据的分析和聚合。

1.1 非会话起始标志计数

首先，我们要定义非会话起始标志（ c_nonorigin_flags ），其计算方式如下：

SUM(IF(a.a_timestamp + 1800 >= b.b_timestamp AND
    a.a_timestamp < b.b_timestamp,1,0)) as c_nonorigin_flags

这里的逻辑是：
- a.a_timestamp + 1800 >= b.b_timestamp ：检查候选时间戳是否在限定时间戳的30分钟内。
- a.a_timestamp < b.b_timestamp ：确保候选时间戳早于限定时间戳，避免误判。

1.2 页面视图与起源匹配

接下来，我们要找出每个页面视图所属的起源。通过以下SQL语句创建表 sessionization_step_two_origin_identification ：

CREATE TABLE sessionization_step_two_origin_identification AS
SELECT
  c.c_user_id as sstoi_user_id,
  c.c_pageview_id as sstoi_pageview_id,
  d.d_pageview_id as sstoi_origin_pageview_id
FROM
(SELECT
  a.a_user_id as c_user_id,
  a.a_pageview_id as c_pageview_id,
  MAX(IF(a.a_timestamp >= b.b_timestamp, b.b_timestamp, NULL)) as c_origin_timestamp
FROM
(SELECT
  st_user_id as a_user_id,
  st_pageview_id as a_pageview_id,
  st_timestamp as a_timestamp
FROM
  session_test
) a
JOIN
(SELECT
  ssoo_user_id as b_user_id,
  ssoo_timestamp as b_timestamp
FROM
  sessionization_step_one_origins
) b
ON
  a.a_user_id = b.b_user_id
GROUP BY
  a.a_user_id,
  a.a_pageview_id
) c
JOIN
(SELECT
  ssoo_usr_id as d_user_id,
  ssoo_pageview_id as d_pageview_id,
  ssoo_timestamp as d_timestamp
FROM
  sessionization_step_one_origins
) d
ON
  c.c_user_id = d.d_user_id and
  c.c_origin_timestamp = d.d_timestamp

这里的关键逻辑是：
- MAX(IF(a.a_timestamp >= b.b_timestamp, b.b_timestamp, NULL)) as c_origin_timestamp ：找出每个页面视图之前的最新起源时间戳。

1.3 起源聚合

然后，对起源进行聚合，统计每个起源对应的页面视图数量，创建表 sessionization_step_three_origin_aggregation ：

CREATE TABLE sessionization_step_three_origin_aggregation AS
SELECT
  a.a_user_id as sstoa_user_id,
  a.a_origin_pageview_id as sstoa_origin_pageview_id,
  COUNT(1) as sstoa_pageview_count
FROM
  (SELECT
    ssoo_user_id  as a_user_id
    ssoo_pageview_id as a_origin_pageview_id
  FROM
    sessionization_step_one_origins
  ) a
  JOIN
  (SELECT
    sstoi_user_id as b_user_id,
    sstoi_origin_pageview_id as b_origin_pageview_id
  FROM
    sessionization_step_two_origin_identification
  ) b
ON
  a.a_user_id = b.b_user_id and
  a.a_origin_pageview_id = b.b_origin_pageview_id
GROUP BY
  a.a_user_id,
  a.a_origin_pageview_id

1.4 起源类型聚合

最后，进行起源类型的聚合，创建表 sessionization_step_four_qualitative_labeling ：

CREATE TABLE sessionization_step_four_qualitative_labeling
SELECT
  a.a_user_id as ssfql_user_id,
  a.a_origin_pageview_id as ssfql_origin_pageview_id,
  b.b_timestamp as ssfql_timestamp,
  b.b_page_url as ssfql_page_url,
  b.b_referrer_url as ssfql_referrer_url,
  a.a_pageview_count as ssqfl_pageview_count
(SELECT
  sstoa_user_id as a_user_id,
  sstoa_origin_pageview_id as a_origin_pageview_id,
  sstoa_pageview_count as a_pageview_count
FROM
  sessionization_step_three_origin_aggregation
) a
JOIN
(SELECT
  st_user_id as b_user_id,
  st_pageview_id as b_pageview_id,
  st_page_url as b_page_url,
  st_referrer_url as b_referrer_url,
  st_timestamp as b_timestamp
FROM
  session_test
) b
ON
  a.a_user_id = b.b_user_id and
  a.a_origin_pageview_id = b.b_pageview_id

1.5 用户参与度测量

通过以下SQL语句，我们可以测量用户参与度，例如按推荐URL统计会话数量、平均页面视图数等：

SELECT
  PARSE_URL(ssfql_referrer_url, ‘HOST’) as referrer_host,
  COUNT(1) as session_count,
  AVG(ssfql_pageview_count) as avg_pvs_per_session,
  SUM(ssfq_pageview_count)/COUNT(1) as weighted_avg_pvs_per_session,
  MAX(ssfql_pageview_count) as max_pvs_per_session,
  MIN(ssfql_pageview_count) as min_pvs_per_session,
  COUNT(DISTINCT ssfql_usr_id) as unique_users
FROM
  sessionization_step_three_origin_aggregation
GROUP BY
  PARSE_URL(ssfql_referrer_url, ‘HOST’) as referrer_host

2. NASA喷气推进实验室的区域气候模型评估系统

NASA喷气推进实验室（JPL）自2009年以来积极开发区域气候模型评估系统（RCMES），该系统具有以下目标：
- 促进区域气候模型模拟输出的评估和分析，提供质量控制的观测和同化参考数据集、高效的数据库结构、计算模型评估指标和诊断的工具以及可迁移的友好用户界面。
- 整合复杂的异构软件工具，实现数据访问、表示、重网格、重新格式化和可视化，以便将最终产品（如偏差图）轻松交付给用户。
- 支持区域气候变率和影响评估，为决策者（如地方政府、农业部门、州政府、水文学家）提供信息，帮助他们做出具有重大财务和社会影响的决策。
- 克服数据格式和元数据的异构性（如NetCDF3/4、CF元数据约定、HDF4/5、HDF - EOS元数据约定）。
- 处理空间和时间差异，如将数据与180/80经纬度网格对齐，确保不同时间尺度（如每日数据与每月数据）的数据具有可比性。
- 支持弹性扩展，进行特定区域研究，执行一系列分析，然后销毁系统实例，即支持临时分析和RCMES实例的快速构建/解构。

系统的架构和数据流程如下：

graph LR
    A[参考数据集] --> B[RCMED数据库]
    B --> C[RCMET工具包]
    D[气候模型输出数据] --> C
    C --> E[指标计算与可视化]

3. 选择Hive的原因及挑战克服

3.1 选择Hive的原因

在将60亿行数据加载到MySQL后，系统出现故障和数据丢失问题。这可能是由于将所有数据存储在单个表中的简单策略导致的。后来尝试按数据集和参数拆分表，但增加了不必要的开销。因此，决定尝试使用Apache Hive技术。

3.2 遇到的挑战及解决方法

在从MySQL迁移数据到Hive的过程中，进行简单的计数查询时响应时间较慢。例如，对25亿条记录进行计数，Hive需要5 - 6分钟（68亿条记录需要15 - 17分钟），其中映射阶段占用了约95%的时间。

尝试了多种方法来优化，如增加节点、增加映射任务跟踪器、更改DFS块大小、使用LZO压缩等，但效果不佳。后来，Hive社区提供了以下建议：
- 增加映射器数量：通过减少每个映射器的拆分大小（输入大小）来增加并行性，检查并设置以下参数为64MB： mapred.min.split.size 、 mapred.max.split.size 、 mapred.min.split.size.per.rack 、 mapred.min.split.size.per.node 。
- 使用 count(1) ：避免使用 count(datapoint_id) ，因为前者不需要列引用，无需解压缩和反序列化，在RCFile格式下更快。

通过以上优化，Hive集群能够在15秒内响应数十亿行的计数查询和时空查询，成为系统架构的可行选择。

4. Photobucket的数据处理与Hive应用

4.1 发展历程

Photobucket是互联网上最大的专业照片托管服务。2008年之前，没有专门的分析系统，业务用户的问题需要在数百个MySQL实例上运行并手动在Excel中汇总结果。2008年开始实施第一个数据仓库，最初使用开源系统和PostGreSQL数据库，但随着数据量的增加，架构的缺点逐渐显现，需要进行扩展。

4.2 选择Hadoop和Hive的原因

能够处理结构化和非结构化数据。
可以通过Flume、Scribe或MountableHDFS将数据实时流式传输到HDFS。
可以通过用户定义函数（UDF）扩展功能。
具有文档完善的类SQL接口，专门为OLAP设计，而非OLTP。

4.3 硬件配置

数据节点：Dell R410，4 × 2 TB驱动器，24 GB RAM。
管理硬件：Dell R610，2 × 146 GB（RAID 10）驱动器，24 GB RAM。

4.4 Hive中的数据

Hive主要用于提供有关业务功能、系统性能和用户活动的答案。存储的数据包括：
- 来自数百台服务器的MySQL数据集的夜间转储。
- 来自Web服务器的数TB日志文件和通过Flume摄取的自定义日志格式。

对于历史数据，保留每月第一天创建的所有MySQL数据分区和30天以上的日志文件。使用自定义ETL框架将MySQL数据迁移到Hive，日志文件数据通过Flume流式传输到HDFS，并由定时Hive进程处理。

4.5 支持的对象

执行管理层依靠Hadoop提供有关业务整体健康状况的报告。Hive能够解析结构化数据库数据和非结构化点击流数据，并将数据提炼成业务利益相关者所需的格式。

综上所述，无论是用户会话数据处理、气候模型评估还是照片托管服务的数据处理，Hive都在其中发挥了重要作用，帮助解决了数据处理和分析中的各种挑战。通过合理的架构设计和优化，能够提高系统的性能和效率，为业务决策提供有力支持。

数据处理与分析：从用户会话到气候模型及图片服务的实践

5. 不同场景下数据处理的对比与总结

从这个对比中可以看出，不同场景下的数据处理虽然有各自的特点，但都面临着数据规模和复杂性带来的挑战。而Hive在处理大规模数据和异构数据方面表现出了一定的优势，通过合理的配置和优化，可以有效提高数据处理的效率。

6. 数据处理的通用流程总结

综合以上不同场景的数据处理实践，我们可以总结出一个通用的数据处理流程：

graph LR
    A[数据收集] --> B[数据存储]
    B --> C[数据处理与分析]
    C --> D[结果输出与应用]

数据收集 ：从各种数据源收集数据，如用户会话数据、气候观测数据、服务器日志等。
数据存储 ：选择合适的存储系统，如MySQL、Hive等，根据数据的特点和规模进行存储。
数据处理与分析 ：运用SQL查询、聚合操作、自定义函数等方法对数据进行处理和分析，提取有价值的信息。
结果输出与应用 ：将分析结果以报表、可视化图表等形式输出，为业务决策提供支持。

7. 未来展望

随着数据量的不断增长和业务需求的日益复杂，数据处理和分析将面临更多的挑战和机遇。未来，我们可以从以下几个方面进行进一步的探索和优化：
- 技术创新 ：关注新的数据处理技术和工具，如机器学习、深度学习等，将其应用到数据处理和分析中，提高数据处理的准确性和效率。
- 架构优化 ：不断优化数据处理架构，提高系统的扩展性和弹性，以应对数据规模的快速增长。
- 数据安全 ：加强数据安全保护，确保数据在收集、存储、处理和分析过程中的安全性和隐私性。

总之，数据处理和分析是一个不断发展和完善的领域，我们需要不断学习和实践，以适应不断变化的业务需求和技术环境。通过合理运用各种技术和工具，我们可以更好地挖掘数据的价值，为业务决策提供有力支持。

8. 关键技术点回顾

为了帮助大家更好地理解和掌握本文中涉及的关键技术点，我们进行如下回顾：
- SQL查询与聚合 ：在用户会话数据处理中，通过SQL语句进行数据的查询、筛选、聚合等操作，如 SUM 、 COUNT 、 MAX 等函数的使用。
- Hive的使用 ：在NASA喷气推进实验室的区域气候模型评估系统和Photobucket的数据处理中，Hive发挥了重要作用。需要注意的是，在使用Hive时，要根据实际情况调整参数，如 mapred.min.split.size 等，以提高查询性能。
- 数据迁移和ETL ：在不同场景下，都涉及到数据的迁移和ETL过程。例如，Photobucket使用自定义ETL框架将MySQL数据迁移到Hive，同时通过Flume将日志数据流式传输到HDFS。

通过对这些关键技术点的回顾，希望大家能够更加深入地理解数据处理和分析的过程，在实际应用中能够灵活运用这些技术。

9. 总结与建议

本文介绍了用户会话数据处理、NASA喷气推进实验室的区域气候模型评估系统以及Photobucket的数据处理实践，展示了不同场景下数据处理的方法和技术。在实际应用中，我们可以根据以下建议进行数据处理和分析：
- 选择合适的技术和工具 ：根据数据的特点和业务需求，选择合适的存储系统和数据处理工具，如Hive、MySQL等。
- 注重数据质量 ：在数据收集和存储过程中，要确保数据的质量，避免数据错误和缺失对分析结果产生影响。
- 持续优化和改进 ：不断优化数据处理架构和算法，提高系统的性能和效率，以适应不断变化的业务需求。

通过以上的总结和建议，希望能够帮助大家更好地进行数据处理和分析，为业务发展提供有力支持。