
大数据
文章平均质量分 94
Impala、hive、flume、Kafka、spark等HADOOP组件
阿啄debugIT
0、精通java,及常用设计模式,熟练编写shell脚本,掌握python、scala、golang的编写;
1、精通Spring Cloud等微服务架构,掌握SpringBoot、batis等后端技术,kafka、redis、es等中间件的整合开发;
2、熟悉掌握mysql、pg等关系数据的原理及调优,及NoSQL数据的存储和查询;
3、熟悉CDH各个组件,及精通离线、实时等计算技术;
4、掌握java多线程高并发编程,及整合shiro、redis、fastdfs、MQ、netty等开发;
5、熟悉K8S集群管理Docker容器,及理解掌握openstack原理和操作。
展开
-
大数据常用的Lambda架构---实时架构处理流程与离线架构处理流程
前言对低成本,规模化的需求,促使人们开始使用分布式文件系统,例如 HDFS和基于批量数据的计算系统(MapReduce 作业),但是这种系统很难做到低延迟。用 Storm 开发的实时流处理技术,可以帮助解决延迟性的问题,但并不完美。其中的一个原因是,Storm 不支持 exactly-once 语义,因此不能保证状态数据的正确性,另外它也不支持基于事件时间的处理。有以上需求的用户,不得不在自己的应用程序代码中加入这些功能。后来出现了一种混合分析的方法,它将上述两个方案结合起来,既保证低延迟,原创 2021-05-25 21:46:23 · 3204 阅读 · 11 评论 -
大数据集群部署策略是什么,集群运行状态如何监控,数据怎么采集的,采集后的存储和分析策略是什么?
前言集群部署策略是什么,集群运行状态如何监控,数据怎么采集的,采集后的存储和分析策略是什么?集群部署策略是什么简单的节点部署策略因为在一般情况下,Hadoop节点需要占用的磁盘空间是最紧张的资源,所以最基本的节点部署策略,是按照磁盘空间的大小来考虑的。首先将所有Hadoop节点按照磁盘空间的要求从大到小进行排序,再将可用的Host按照剩余磁盘空间从大到小进行排序。第一步将磁盘空间需求最大的Hadoop节点部署到剩余磁盘空间最大的主机上去,第二步将磁盘空间需求次大的Hadoop节点部署到原创 2021-04-15 20:09:26 · 1580 阅读 · 0 评论 -
ansible安装部署CDH集群,与手动安装部署CDH集群,及CM配置和用户权限配置
前言CDH大数据平台CDH是Cloudera发布的一个自己封装的Hadoop商业版软件发行包,里面不仅包含了Cloudera的商业版Hadoop,能够十分方便地对Hadoop集群进行安装,部署和管理,同时CDH中也包含了各类常用的开源数据处理与存储框架,如Spark,Hive,HBase等。部署Hadoop集群的时候,可以选择Cloudera Express免费版本。这个版本包含了CDH以及Cloudera Manager核心功能,提供了对集群的管理功能,比如自动化部署,中心化管理,监控,诊断功原创 2020-10-02 23:11:09 · 1067 阅读 · 0 评论 -
赏析“百度大脑事件图谱:洞察复杂世界中的事件知识”
互联网技术的发展日新月异,“得知识者得天下”已经成为各行业的共识。以事件图谱为代表的大数据+人工智能技术被时代打上追光,这也蕴含大量先验知识的宝库正在被不断的挖掘和应用。百度大脑作为事件图谱技术的前沿探索者,已经积累了丰富的经验并具备了领先的技术能力。今后更将赋能各行各业,帮助企业降本增效,助力各行业完成智能化升级。愿搭上百度大脑这辆快车,助我们开发人员更好的解决生活与工作中的大数据,让生活和工作更智能,更开放,更包容,更和谐。原创 2020-09-10 11:23:58 · 1357 阅读 · 1 评论 -
在CDH集群中,添加新的CDH节点导致数据丢失问题解决记录
前言CDH节点操作,按理是可以动态添加,或减少的,但是在实际操作过程中,却不是这样,因为不管添加或减少数据节点,都会涉及到配置文件的变化,因此在添加或减少过后都需要做服务重启,才能使操作生效,而且没有操作快照,使问题操作或者误操作不能返回,这或许是开源产品的一个不足之处。问题在添加节点时,原数据节点(例:hadoopOld)的数据存储目录(/home/data/hadoop),和新数据节点(hadoopNew)的数据存储目录(/home/data/0)不同。在添加节点过程中,在原数据节点的数据原创 2020-07-02 16:50:04 · 2507 阅读 · 0 评论 -
启动spark服务,解决端口占用的踩坑过程及使用Phoenix操作hbase数据表
前言在尝试运行sparksql,发现spark服务没有启动,且发现其端口占用!问题处理过程在liunx系统中,搜索以下是否有spark服务?[root@A ~]# ps -ef|grep spark root 16970 25666 0 18:19 pts/2 00:00:00 grep --color=auto spark没有,就去启动spark服务启动spark服务[root@A sbin]# cd /home/software/spark2.2/sbi原创 2020-07-01 19:14:16 · 1839 阅读 · 1 评论 -
Ceph集群升级,存储引擎改用了bluestore,创建wal&db分区,并创建OSD,指定wal&db使用分区作高速缓存
目录前言:DB WAL分区wal & db 的大小问题创建wal & db分区创建OSD其他前言:ceph集群分别有两个HDD和SSD存储池,一般来说,缓存层构建在昂贵/速度更快的SSD磁盘上,这样才能为客户提供更好的I/O性能。在缓存池后端通常是存储层,它由复制或者erasure类型的HDD组成。在这种类型的设置中,客户端将I/O请求提交到缓存池,不管它是一个读或写操作,它的请求都能够立即获得响应。速度更快的缓存层为客户端请求提供服务。一段时间后,缓存.原创 2020-06-16 18:19:49 · 3812 阅读 · 0 评论 -
beeline 取hive数据,及基于共享层部署Mapreduce
1.部署流程图:2. 取数方法:建表:beeline"jdbc:hive2://master05.cluster-b.gdyd.com:10000/default;principal=hive/_HOST@GDSAI.COM?tez.queue.name=hanxin" -e "create table if not exists TMP_hanxin_HTTP...原创 2020-05-23 01:05:19 · 402 阅读 · 0 评论 -
hive计算TCP_UDP的各项指标的KPI的脚本
引言在说hive计算TCP_UDP的各项指标的KPI的脚本之前,引入Shell case in语句。和其它编程语言类似,Shell 也支持两种分支结构(选择结构),分别是 if else 语句和 case in 语句。当分支较多,并且判断条件比较简单时,使用 case in 语句就比较方便了。https://www.cnblogs.com/qiangyuzhou/p/10806768.h...原创 2020-02-06 16:54:26 · 568 阅读 · 0 评论 -
hive shell命令行常用参数(-S、-e、-f、-i)的解读,及在边缘计算中包括http、tcp、udp等网络间协议的cache和idc分析及gw分级报表分析应用
1、CACHE和IDC分析的hive脚本工具#!/bin/bashhive -S -e "set tez.queue.name=XXXXXXXX;set mapreduce.job.queuename=XXXXXXXX;select '2016062309','GZ','unknow',APP_SERVER_IP_IPV4, sum(TCP_CREATELINK_TRYTIMES) ...原创 2020-02-06 16:13:37 · 1714 阅读 · 0 评论 -
Hive 数据存储详解
1、Hive 数据存储存储格式Hive中所有的数据都存储在 HDFS 中,没有专门的数据存储格式(可支持Text,SequenceFile,ParquetFile等)。Parquet和ORC是属于列式存储。几张图看懂列式存储详细介绍了列式存储的原理和优势。从上图可以很清楚地看到,行式存储下一张表的数据都是放在一起的,但列式存储下都被分开保存了。所以它们就有了如下这些优缺点:这里...原创 2020-02-04 23:19:12 · 717 阅读 · 0 评论 -
ETL工具Kettle研究-3-MySQL数据导入HIVE
前言.从数据库(mysql)中读取数据写入HDFS并建hive表。在该转换中,需要配置2个DB链接(Mysql和HiveServer2),配置Hadoop集群(HDFS),配置子服务器(远程执行服务器)。本实践的元数据文件:mysql-to-hive.ktr1.数据库配置主对象树->DB连接->新建->一般->Mysql->设置(填写数据库信息)注意...原创 2020-02-04 03:38:04 · 1637 阅读 · 0 评论 -
将Hive中的hive-site.xml文件拷贝到Spark的conf目录,Spark才能访问Hive的元数据
HiveContext是Spark提供的用户接口,HiveContext继承自SqlContext。可以使用sql读取和写入Hive表(必须在hive上有创建表且名称必须一致)。如下SQL:select user_ip_city, service_type, sub_service_type from default.gem_dns_etl_xdr where time=201811031...原创 2020-01-14 16:49:00 · 2836 阅读 · 0 评论