大数据测试
四叶草0423
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
实时计算测试
实时计算: 消费到MQ消息调接口查相关数据或者直接redis对应字段计数+1 比如机票创单数据,线上收到创单消息后调如来统计接口查询到对应的memberid,redis里面对应的fileld字段cds计数+1 如果消费线上已有消息,可以直接模拟MQ发消息测试实时计算 实时计算测试流程 一、实时计算测试 1、git代码review 2、MQ topic,tag,消息体确认 3、是否调用接口确认 4、实时+1测试: 是否+1测试 字段是否正确测试 二、上线方案测试 1)全量+实时上线方案(新的消费组)原创 2020-12-26 22:05:24 · 440 阅读 · 1 评论 -
数据搬运测试
离线数据搬运工具一般分2种Xdata和Spark Xdata只是一个导入工具,无逻辑处理 Spark支持数据微处理后再批量导入 下面介绍离线数据清洗后如何搬运到redis或者Hbase中: 1、检查配置 主要配置测试,HDFS数据源路径,数据分隔符需要和建表语句中一致 使用desc可以,查看表结构,使用describe formatted 可以查看表的详细结构,使用show create talbe可以查看建表语句 desc app_table describe formatted app_table sh原创 2020-12-26 22:02:59 · 319 阅读 · 0 评论 -
Flink流式计算测试
流式计算框架有Strom,Spark,Flink 目前Spark主要应用于离线数据批量导入,相比于XDATA导入工具是有逻辑处理的,微批处理能力不错; Strom主要应用于MQ的实时消费(push过来的数据),来一条数据处理一条数据,实时性比较好 Flink大数据的新趋势,功能强大,批处理和实时处理,丰富的窗口功能: checkpoint:保证数据不丢失 offset:每一条消息有个位置标记以便于系统出故障时可以重新消费,flink内存:统计计算 Event time (事件时间) :印刷时间 比如原创 2020-12-26 21:49:31 · 730 阅读 · 0 评论 -
Hive离线数据清洗测试
Hive是基于Hadoop的一个数据仓库工具(离线),可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。主要包括数据开发、数据运维、数据仓库,快速取数 测试前准备工作 1、离线数据平台权限申请:申请离线开发平台,数据仓库,快速取数的权限,以及查看sql脚本的权限 2、从数据开发得到清洗的项目ID,任务ID,最终的HIVE表名,申请对应表的数据权限,数据搬运任务ID,搬运REDIS/HBASE的对应字段文档 离线清洗测试要点 1、清洗逻辑确认,遍历清洗逻辑是否正确,是否和需求一致 2、revi原创 2020-12-26 21:45:16 · 1340 阅读 · 0 评论
分享