
bigdata
文章平均质量分 89
大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
赵广陆
优快云认证博客专家、优快云的Java领域优质创作者、全网30w+粉丝、超300w访问量、专注于大学生项目实战开发、讲解和答疑辅导、以及产品测评宣传、工具推广等合作。同时招收学生代理、校园代理,对于专业性数据证明一切!
展开
-
大数据Azkaban失败任务预警
目录1 默认邮件预警案例2 电话预警案例2.1 第三方告警平台集成2.2 测试1 默认邮件预警案例Azkaban 默认支持通过邮件对失败的任务进行报警,配置方法如下:1 ) 在 azkaban-web 节 点 hadoop102 上 , 编 辑/opt/module/azkaban/azkaban-web/conf/azkaban.properties,修改如下内容:[atguigu@hadoop102 azkaban-web]$ vim /opt/module/azkaban/azkaban原创 2021-11-24 22:15:00 · 1521 阅读 · 0 评论 -
大数据Azkaban常见工作流进阶实战
目录1.Java案例工作流2 条件工作流案例2.1 运行时参数 案例2.2.1 基本原理2.2.2 支持的条件运算符2.2.3 案例3 预定义宏案例4 定时执行案例1.Java案例工作流1)新建一个 azkaban 的 maven 工程2)创建包名:com.atguigu3)创建 AzTest 类public class AzTest { public static void main(String[] args) { System.out.println("This i原创 2021-11-24 21:45:00 · 353 阅读 · 0 评论 -
大数据Azkaban Work Flow实战
目录1 HelloWorld 案例1.1 yarm语法:2 作业依赖案例2.1 修改 basic.flow 为如下内容2.2 将修改后的 basic.flow 和 azkaban.project 压缩成 second.zip 文件2.3 重复 HelloWorld 后续步骤。3 自动失败重试案例3.1 编译配置流3.2 将修改后的 basic.flow 和 azkaban.project 压缩成 four.zip 文件3.3 重复HelloWorld 后续步骤。3.4 执行并观察到一次失败+三次重试3.5原创 2021-11-24 21:00:00 · 420 阅读 · 0 评论 -
大数据Oozie任务调度
目录1 Oozie 概述2 Oozie 的架构3 Oozie 基本原理3.1 流程节点4 Oozie 工作流类型4.1 WorkFlow4.2 Coordinator4.3 Bundle5 Oozie 和 Hue 整合5.1 修改 hue 配置文件 hue.ini5.2 启动 hue 、oozie5.3 Hue 集成 Oozie5.3.1 使用 hue 配置 oozie 调度5.3.2 利用 hue 调度 shell 脚本5.3.3 利用 hue 调度 hive 脚本5.3.4 利用 hue 调度 MapR原创 2021-04-11 20:09:05 · 1208 阅读 · 0 评论 -
大数据Azkaban快速入门
目录1 Azkaban简介2 工作流2.1 工作流产生背景2.2 工作流调度实现方式2.3 工作流调度工具之间对比3 Azkaban 调度器3.1 Azkaban 介绍3.2 Azkaban 原理架构3.3 Azkaban 三种部署模式3.3.1 solo server mode3.3.2 two-server mode3.3.3 multiple-executor mode4 Azkaban 源码编译4.1 编译环境4.2 下载源码解压4.3 编译源码4.4 编译后安装包路径4 Azkaban 安装部署4原创 2021-04-11 19:52:48 · 476 阅读 · 0 评论 -
大数据预处理
目录1 数据提供2 查看数据3 数据扩展4 数据过滤5 数据上传1 数据提供为了保证实践的真实性,本章为读者提供了一个较大的数据文件,即sogou.500w.utf8,该文件是大数据领域很有名的一个供研究用的数据文件,内容是sogou网络访问日志数据,该文件被众多研究和开发人员所采用。找到sogou.500w.utf8文件,将其复制到Master的“/home/csu/resources/”目录(或者读者自己的任意目录)下。以下的大部分操作均围绕该数据文件进行。2 查看数据less sogou原创 2021-11-05 21:15:00 · 788 阅读 · 0 评论 -
大数据存储方案
目录1 结构布局1.1 行存储数据排列1.2 列存储数据排列2 对比3 优化4 总结1 结构布局目前大数据存储有两种方案可供选择:行存储和列存储。业界对两种存储方案有很多争持,集中焦点是:谁能够更有效地处理海量数据,且兼顾安全、可靠、完整性。从目前发展情况看,关系数据库已经不适应这种巨大的存储量和计算要求,基本是淘汰出局。在已知的几种大数据处理软件中,Hadoop的HBase采用列存储,MongoDB是文档型的行存储,Lexst是二进制型的行存储。在这里,我不讨论这些软件的技术和优缺点,只围绕机械磁盘原创 2021-10-25 20:45:00 · 18680 阅读 · 0 评论 -
大数据采集系统搭建
目录1 采集系统介绍2 采集系统搭建2.1 配置2.2 启动3 提交 Connector3.1 提交 Connector3.2 Connector其他REST API4 测试1 采集系统介绍对于数据的抽取通常会搭建专业的数据采集系统来完成各种源数据的抽取。采集系统的执⾏流程如下:2 采集系统搭建搭建步骤如下:配置Kafka-Connecter(kafka-to-hdfs)部署采集系统部署web前端2.1 配置启动Kafka - Connector先新建一个kafka-to-hd原创 2021-10-06 21:38:53 · 1854 阅读 · 0 评论 -
大数据ETL简介
目录1 数据抽取2 数据转换3 数据加载1 数据抽取ETL(Extract-Transform-Load)是将数据从来源端经过抽取(extract)、转换(transform)、加载(load)⾄⽬的端的过程。从数据源抽取出所需要的原始数据,经过数据清洗,最终将清洗后的数据加载到数据仓库中去。也称为数据仓库技术。数据源通过采集的⽅式获取, 保存到数据仓库通过数据清洗,处理完成落地到数据仓库供业务使⽤数据抽取是从数据源抽取需要的原始数据,抽取的⽅式多种多样,要根据数据源的特点来确定,通常原创 2021-10-06 20:12:43 · 7860 阅读 · 2 评论 -
大数据基础和硬件介绍
目录1 大数据课程导论1.1 大数据概念1.2 大数据的特点1.3 大数据能干啥1.4 大数据发展前景1.5 企业数据部的业务流程分析2 服务器基本介绍3 存储磁盘基本介绍3.1 SCSI接口硬盘介绍3.2、SAS接口硬盘介绍3.3、FDE/SDE接口硬盘介绍3.4、SATA硬盘基本介绍3.5、SSD硬盘介绍4.交换机基本介绍5.网卡的介绍6.局域网基本介绍7.机架基本介绍8.IDC数据中心介绍9.磁盘阵列9.1、RAID0基本介绍9.2、RAID1基本介绍9.3、RAID2基本介绍9.4、RAID3基本介原创 2021-04-08 20:29:10 · 3777 阅读 · 0 评论 -
大数据技术之大数据概论
目录1 大数据概念2 大数据特点(4V)3 大数据应用场景4 大数据发展前景5 大数据部门间业务流程分析6 大数据部门内组织结构1 大数据概念大数据概念大数据(Big Data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。按顺序给出数据存储单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。 1Byte = 8bit 1K = 10原创 2021-03-25 17:46:20 · 742 阅读 · 0 评论 -
大数据快速搭建环境
目录1 准备工作2 cloudera-quickstart-vm的使用2.1 用户说明3 安装4 修改windows的host文件方便访问1 准备工作CDH QuickStart VM可以看到官方已经不对之后的版本维护了,直接下架,但是可以下载原有的镜像进行操作,本环境只适合小白进行快速搭建一套环境,之后熟悉一些操作,看了一些现有博客比较乱,整合一下下载虚拟机镜像包。链接:https://pan.baidu.com/s/1TVn6GcqO9yVweX9zMkOBpg 提取码:nnkk原创 2021-07-29 20:02:02 · 911 阅读 · 7 评论 -
大数据常用调度平台
目录1. 项目结构1.1. 项目介绍1.2. 项目结构2. Oozie 介绍2.1. 需求2.2. 可选的方式2.2.1. Crontab2.2.2. Oozie2.3. Oozie 和竞品的对比3. Oozie 组件3.1. Workflow3.2. Coordinator4. 调度实现4.1. 执行流程4.2. Workflow4.3. Coordinator4.4. Java 代码4.5. 执行流程4.5. 调度 Workflow1. 项目结构目标理解项目中为什么需要调度平台步骤原创 2021-07-28 22:09:13 · 2168 阅读 · 0 评论 -
大数据数据倾斜问题与企业级解决方案
数据倾斜问题在实际工作中,如果我们想提高MapReduce的执行效率,最直接的方法是什么呢?我们知道MapReduce是分为Map阶段和Reduce阶段,其实提高执行效率就是提高这两个阶段的执行效 率默认情况下Map阶段中Map任务的个数是和数据的InputSplit相关的,InputSplit的个数一般是和Block块 是有关联的,所以可以认为Map任务的个数和数据的block块个数有关系,针对Map任务的个数我们一般是不需要干预的,除非是前面我们说的海量小文件,那个时候可以考虑把小文件合并成大文件原创 2021-07-21 22:42:29 · 935 阅读 · 3 评论 -
大数据集群环境搭建
目录1. 设计一个规模合适的集群1.1. 资源预估1.2. 选择服务器1.3. 分配集群角色2. 部署和管理集群的工具2.1. Hadoop 的发展历程2.2. 部署和管理 Hadoop 的集群并不简单2.3. 三种工具的部署方式3. 自动创建虚拟机3.1. 什么是 Vagrant3.2. 安装 Vagrant 和概念介绍3.3. 使用 Vagrant 构建一个虚拟机集群4. 自动化部署服务 (了解, 运维领域)4.1. 痛点和 Ansible4.2. 使用 Vagrant 整合 Ansible4.3. 使原创 2021-07-20 21:19:20 · 1157 阅读 · 2 评论 -
数据仓库用户行为采集记录
目录1 数据采集1.1 目标数据1.1.1 页面1.1.2 事件1.1.3 曝光1.1.4 启动1.1.5 错误2 数据埋点2.1 主流埋点方式2.2 埋点数据日志结构2.3 埋点数据上报时机1 数据采集1.1 目标数据我们要收集和分析的数据主要包括页面数据、事件数据、曝光数据、启动数据和错误数据。1.1.1 页面页面数据主要记录一个页面的用户访问情况,包括访问时间、停留时间、页面路径等信息。1)所有页面id如下home("首页"),category("分类页"),discovery(原创 2021-06-30 20:37:42 · 410 阅读 · 0 评论 -
数据仓库搭建
目录1 数据仓库概念1.1 什么是数据仓库1.2 OLTP与OLAP2 项目需求及架构设计3 项目框架4 框架版本选型4.1 Hadoop版本综述4.2 社区版与第三方发行版的比较4.2.1.Apache社区版4.2.2.第三方发行版(CDH/HDP/MapR)4.3 第三方发行版的比较4.4 版本选择5 服务器选型6 集群资源规划设计7 测试集群服务器规划1 数据仓库概念数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数原创 2021-06-30 20:37:31 · 8714 阅读 · 6 评论