
大数据测试学习
文章平均质量分 77
@流浪地球
生命不息,奋斗不止。
展开
-
hive
hivehive是基于Hadoop的一个数据仓库工具**,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。** 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一...原创 2019-05-30 21:57:11 · 290 阅读 · 0 评论 -
DB设计
测试关注:DB设计是否合理,是否可涵盖业务场景。1. 元数据什么是元数据:描述数据的数据。主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。元数据的分类技术类元数据:a. 存储类数据:表,表结构等。b. 计算类型数据:hive的job日志,计算任务,任务调度,日志信息等。c. 数据质量和运维相关的元数据:如人工监控,运维报警...原创 2019-05-29 21:37:55 · 1399 阅读 · 0 评论 -
处理方式及MapReduce
处理方式秒 基于实时数据流的数据处理原生流处理:所以的输入记录一旦到达,会一个接一个进行处理。一个消息传递过来,立刻处理。Storm:是一个免费并开源的分布式实时计算系统。利用Storm可以很容易做到可靠地处理无限的数据流,像Hadoop批量处理大数据一样,Storm可以实时处理数据。Storm,可以使用任何编程语言。微批处理:把输入的数据按照某种预先定义的时间间隔(典型到达是几秒...原创 2019-05-29 20:42:54 · 465 阅读 · 0 评论 -
大数据业务层架构
大数据公司专业的第三方大数据公司海量数据处理型公司企业内部大数据业务报表预测分析数据监控大数据业务层架构原创 2019-05-28 21:54:31 · 1148 阅读 · 0 评论 -
传统数据仓库 DW/EDW/BI/ODS/DM/ETL
DW 数据仓库数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。EDW 企业数据仓库数据仓库(DW)概念的创始人W. H.Inmon对数据仓库下了这样的定义:“数据...原创 2019-05-28 23:32:09 · 8467 阅读 · 0 评论 -
Shell命令
Pwd 查看当前目录路径cd 进入某目录ll 查看当前文件夹文件详细信息mkdir 创建文件夹touch 创建文件vi 编辑文件vi命令编辑 i插入模式vi命令 esc按键退出编辑vi命令 :wq 保存cat 查看文件: w filename (输入 「w filename」将文章以指定的文件名filename保存)q! (输入q!, 不存盘强制退出vi)按「o」进入...原创 2019-05-30 22:39:07 · 218 阅读 · 0 评论 -
大数据-初识hadoop
什么是hadoopHadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(h...原创 2019-10-20 10:44:14 · 674 阅读 · 6 评论 -
hadoop与传统数据库的区别
hadoop的5v特征速度快-实时-离线多样性数据量大真实性单条数据价值密度低传统数据库特点数据结构化 ,数据之间具有联系,面向整个系统。数据的共享性高,冗余度低,易扩充 。数据独立性高 。数据由DBMS统一管理和控制。5v特征对比速度上hadoop:速度快-实时处理-离线处理,支持流处理,批处理。传统数据库:关系型数据库定时任务需要人工跑批,以一天为单位。...原创 2019-05-28 21:36:54 · 14786 阅读 · 0 评论 -
日志收集系统 flume
实时数据高容错误高可用可发货什么是flume?Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。flume 优点作用日志收集不同数据源转存不同存储中心负载均衡,故障转移flume 架构...原创 2019-05-29 22:58:36 · 928 阅读 · 0 评论