新闻亿级流量采集与监控

本文概述了一个项目,聚焦于行为和内容数据的收集、解析,以及通过Nginx与Sqoop进行的高效数据流转。介绍了使用OpenResty进行HTTP接口编程,Flume处理News资讯,以及Sqoop在Hadoop生态中的数据迁移应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

0、项目介绍

数据类型

行为日志:由客户端上报、用户的行为,如点赞、收藏

内容日志:公司的产品,如一条新闻、一条商品

业务日志:服务器端日志、元数据,一般在表格中

 行为日志与内容日志都采用HTTP接口,服务器端推送的模式

项目架构

架构图

架构层 

1~4层:数据采集

5、6层:独立模块

7、8层:监控模块

采用技术 

1、数据格式解析

  • 行为数据:由客户端(服务器)向http接口提交。base64格式,对其反编码
  • 需要规定一次发多少,多久发一次

  •  新闻资讯数据:Flume Http接收,json
  • 业务数据:元数据表,广告信息表,将表同步到HDFS,未实现元数据管理

2、行为数据采集

 1、构建Nginx

        ·安装OpenResty:基于Nginx和Lua的高兴能web平台,继承Lua库等第三方模块。可以对Nginx进行编程。其类似Yarn,一个Master,若干个Worker

Sqoop

Sqoop是Hadoop生态与RDB数据导入与导出的辅助软件。应用于数据采集和迁移,可以理解为从RDB到Hadoop(导入),从Hadoop到RDB(导出)。

工作流程是将命令翻译成MR执行,主要是对InputFormat和OutputFormat进行定制

DB/Text [In|Out] putFormat

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值