bingoabin
这个作者很懒,什么都没留下…
展开
-
RDD算子
RDD算子算子分类#1、transformation(转换)#根据已经存在的rdd转换生成一个新的rdd, 它是延迟加载,它不会立即执行例如:map / flatMap / reduceByKey 等#2、action (动作)它会真正触发任务的运行将rdd的计算的结果数据返回给Driver端,或者是保存结果数据到外部存储介质中例如:collect / saveAsTextFile 等transformation算子转换原创 2021-06-12 01:48:47 · 521 阅读 · 0 评论 -
kudu table
kudukudu介绍Kudu背景#在 KUDU 之前,大数据主要以两种方式存储:##可以更快地访问批量数据集(高吞吐量),而不是该数据集中的特定记录(低延迟)静态数据:以 HDFS 引擎作为存储引擎,适用于高吞吐量的离线大数据分析场景。这类存储的局限性是数据无法进行随机的读写。动态数据:以 HBase、Cassandra 作为存储引擎,适用于大数据随机读写场景。这类存储的局限性是批量读取吞吐量远不如 HDFS,不适用于批量数据分析的场景。#从上面分析可知,这两种数据在存储方式上完全不同,进而导致使用原创 2021-06-05 16:52:23 · 415 阅读 · 0 评论 -
keepalived
说明`Keepalived VIP`是实现高可用性的一种轻量级技术手段,主要用来防止单点故障,主要方法是`通过实现虚拟IP对连接的节点进行漂移`,也就是说`服务只需要连接虚ip就可以`,实际上连接的是`虚ip`指定的真实服务,避免了`单点问题`。我们默认`KDC和LDAP`的虚拟ip是172.21.139.250。配置VIP需要有一个虚IP,这个IP是局域网内一个合法的IP,同时不能被ping通。配置VIP需要配置`keepalived.conf`和外部进行状态检测的脚本,这里提供我们的配置作为参考:`原创 2021-05-24 09:37:36 · 434 阅读 · 0 评论 -
hive小文件治理
hive小文件治理背景hive中的数据最终落地到HDFS上,在HDFS上不可避免的有小文件产生,小文件问题,会产生诸多问题,比如:1.对底层存储HDFS来说,HDFS本身就不适合存储大量小文件,小文件过多会导致namenode元数据特别大, 占用太多内存,严重影响HDFS的性能2.对hive来说,在进行查询时,每个小文件都会当成一个块,启动一个Map任务来完成,而一个Map任务启动和初始化的时间远远大于逻辑处理的时间,就会造成很大的资源浪费。而且,同时可执行的Map数量是受限的。原因产生小文件原创 2021-05-02 10:55:49 · 394 阅读 · 1 评论 -
正则表达式
正则表达式一些规则#限定符? 比如used? 表示d可以出现0次或者1次* 表示出现0次或多次字符 比如ab*c 表示ac中间只能出现0个或者多个b+ 表示出现1次以上的字符 比如ab+c 表示ac中间至少出现一个b abc abbbbbbc{2,6} 表示精确出现的次数 比如ab{2,6}c,表示ac中间有只有2-6个b,如果想表示2次以上,可以把6省略,{2,}#上面的只是判断前面一个字符,如果想表示多个字符,可以用()括起来(ab)+ 表示至少出现ab 一次以上原创 2021-04-24 21:32:56 · 428 阅读 · 3 评论 -
Prometheus & Grafana
普罗米修斯 Prometheus介绍#Prometheus是一个时间序列数据库。但是,它不仅仅是一个时间序列数据库。#它涵盖了可以绑定的整个生态系统工具集及其功能。Prometheus主要用于对基础设施的监控。包括服务器,数据库,VPS,几乎所有东西都可以通过Prometheus进行监控。Prometheus希望通过Prometheus配置中定义的某些端点执行的HTTP调用来检索度量标准。工作流程Prometheus server 定期从配置好的 jobs 或者 exporters 中拉 m原创 2021-04-18 15:35:46 · 375 阅读 · 0 评论 -
mysql元数据解析hive表结构
1.mysql表中元数据dbs表CREATE TABLE `dbs` ( `DB_ID` bigint(20) NOT NULL, `DESC` varchar(4000) CHARACTER SET latin1 COLLATE latin1_bin DEFAULT NULL, `DB_LOCATION_URI` varchar(4000) CHARACTER SET latin1 COLLATE latin1_bin NOT NULL, `NAME` varchar(128) CH原创 2021-04-10 10:41:54 · 378 阅读 · 0 评论 -
kerberos
kerberos通俗解释介绍Kerberos是一种网络认证协议,其设计目标是通过密钥系统为客户机/服务器应用程序提供强大的认证服务,该认证过程的实现不依赖于主机操作系统认证,需要基于主机地址的信任,不要求网络上所有主机的物理安全,并假定网络上传送的数据包可以被任意地读取、修改和插入数据。在以上情况下,Kerberos作为一种可信任的第三方认证服务,是通过传统的密码技术(如:共享密钥)执行认证服务的。组件• Client• Server• KDC(Key Distribution C原创 2021-04-03 11:07:18 · 410 阅读 · 0 评论 -
大数据架构
大数据常用的架构随着多年的大数据的技术发展和积累,越来越多的人发现各个公司所使用的大数据技术大致可以分为两大类,分别是离线处理技术和实时处理技术,要么个别公司只有离线处理技术,要么个别公司只有实时处理技术,但是绝大部分公司基本上都是两种技术架构都带着一起在做,以为我们的业务lambda架构基本介绍业务系统基本流程介绍lambda架构基本介绍lambda架构最早是由storm的创始人,Nathan Marz进行提出并描述了我们目前所了解的lambda架构,其实lamda架构先入为主,已经适用在了绝原创 2021-03-16 10:27:25 · 637 阅读 · 2 评论 -
superset
应用场景 数据进入到数据库中,查询只能看到一行行的数据,最好是可以通过图形的方式将数据形象化的展示出来,通过图形进行组合分析,仪表分析,地图分析,多维分析等等,更加详细的通过图形展示数据,展示规律,展示分析!操作步骤 # yum install gcc libffi-devel python-devel python-pip python-wheel openssl-devel libsasl原创 2017-11-20 16:04:52 · 323591 阅读 · 10 评论 -
DataV
应用场景 当我们把清理好的数据,放到了数据库中,浏览数据的时候,直接访问数据库,或者通过JDBC连接代码返回数据,很不方便,我们需要通过报表的形式,通过工具连接数据库,然后进行适当的配置,图形化展示数据,使数据清晰明了的展示在面前,更加方便领导查阅。比如天猫,京东双十一的大屏展示,比如公司年度汇总报表等,都需要使用这类工具,今天介绍阿里的一款产品DataV!操作使用1. 访问地址 阿里云D原创 2017-12-01 14:51:06 · 329022 阅读 · 1 评论 -
SmartMining
应用场景 当遇到数据分类,聚类,预测等场景问题,普通的SQL方法无法解决,需要借助算法这件武器,比如聚类算法,分类算法,预测算法等等,但是手动去研究一个算法比较吃力,有没有那种工具,直接拖拉拽的方式,直接将算法利用起来呢?比如免费版的SPSS,SAS等,今天介绍一款收费版的SmartbiMining,仅仅试用,如果真要生产使用,是要购买的,量力而行!操作步骤1. 概述产品下载测试使用地址原创 2017-12-05 10:32:14 · 314558 阅读 · 0 评论 -
SmartBI
应用场景当杂乱无章的数据,经过数据清洗后,得到了想用的数据,但是查看这些数据通过数据库只能看到数据本身,无法看到其中的规律,可以通过数据分析展示工具,图形化展示数据,使数据更形象化的展现在用户面前,更容易看出规律,得出结论,还可以监控实时数据,实时刷新,比如双十一大屏等等。今天就来介绍使用收费数据分析展现工具SmartBI,注意如果要投入生产,是需要购买的。操作步骤1. 概述 SmartBI是广原创 2017-12-05 15:23:27 · 317803 阅读 · 1 评论 -
大数据美文
大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮。但是每个工具有自己的特性,虽然奇怪的组合也能工作,但是未必是最佳选择。大数据,首先你要能存的下大数据。 传统的文件系统是单机的,不能横跨不同的机器。原创 2018-02-07 00:28:47 · 95365 阅读 · 0 评论 -
Spark
1.Spark 的四大组件下面哪个不是 (D ) A.Spark Streaming B Mlib C Graphx D Spark R2.下面哪个端口不是 spark 自带服务的端口 (C ) A.8080 B.4040 C.8090 D.180803.spark 1.4 版本的最大变化 (B ) A spark sql Release 版本 B 引入 Spark R C DataF原创 2018-01-17 17:15:16 · 169521 阅读 · 1 评论 -
spark周边
Shark自己也没用过,不太熟悉,只了解它的背景,现在已经被Spark淘汰,也不去熟悉它了!Spark 1.0版本开始,推出了Spark SQL。其实最早使用的,都是Hadoop自己的Hive查询引擎;但是后来Spark提供了Shark;再后来Shark被淘汰,推出了Spark SQL。Shark的性能比Hive就要高出一个数量级,而Spark SQL的性能又比Shark高出一个数量级。最早来说,原创 2018-01-17 16:48:07 · 167218 阅读 · 0 评论 -
Spark
应用场景 搭建部署了hadoop环境后,使用MapReduce来进行计算,速度非常慢,因为MapReduce只是分布式批量计算,用于跑批的场景,并不追求速率,因为它需要频繁读写HDFS,并不能实时反馈结果,这种跑批的场景用的还是比较少的。一般客户最想看到的是输入后立马有结果反馈。那此时我们就需要在Hadoop伪分布式集群上部署Spark环境了!因为Spark是内存计算,它把计算的中间结果存到了内原创 2017-11-14 13:44:49 · 322754 阅读 · 0 评论 -
Hadoop面试
1.Hadoop集群可以运行的3个模式?单机(本地)模式 伪分布式模式 全分布式模式2.单机(本地)模式中的注意点?在单机模式(standalone)中不会存在守护进程,所有东西都运行在一个JVM上。这里同样没有DFS,使用的是本地文件系统。单机模式适用于开发过程中运行MapReduce程序,这也是最少使用的一个模式。3.伪分布模式中的注意点?伪分布式(Pseudo)适用于开发和测试环境,原创 2018-01-16 13:59:14 · 173268 阅读 · 1 评论 -
Hadoop笔试
Hadoop笔试题一一、选择题(2分每题,共20分)1.下面哪个程序负责 HDFS 数据存储。 A NameNode B Jobtracker C Datanode D tasktracker 2.HDfS 中的 block 默认保存几份?A 3 份 B 2 份 C 1 份 D 不确定 3.下列哪个程序通常与 NameNode 在一个节点启动? A SecondaryNameNod原创 2017-12-07 23:11:50 · 276098 阅读 · 0 评论 -
E-MapReduce
1. 产品介绍 E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、Kafka、Storm,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。2. 产品优势3. 产品功能4. 应用场景4.1 离线数据处理4.2 Ad hoc数据分析4.3 海量数据在线服务4.4 流式数据处理原创 2018-01-16 11:17:22 · 173441 阅读 · 0 评论 -
tdh
1 Transwarp Inceptor简介 TranswarpInceptor是星环科技推出的用于数据仓库和交互式分析的大数据平台软件,它基于Hadoop和Spark技术平台打造,加上自主开发的创新功能组件,有效的解决了企业级大数据数据处理和分析的各种技术难题,帮助企业快速的构建和推广数据业务。 TranswarpInceptor可提供完整的SQL支持,支持主流的SQL模块化扩展,兼原创 2018-01-16 11:02:01 · 177480 阅读 · 0 评论 -
Fusion Insight
1. 概述 华为Fusion Insight是一个分布式数据处理系统,对外提供大容量的数据存储、查询和分析能力。Fusion Insight在Hadoop集群上又封装了一层,类似于开源的CDH,HDP等大数据平台。2. Fusion Insight框架介绍 Fusion Insight 组成结构图Fusion Insight解决方案由4个子产品Fusion Insight HD、Fusio原创 2018-01-16 10:52:44 · 183245 阅读 · 0 评论 -
h3c
1 产品简介 H3C 大数据平台(Data Engine)采用开源社区 Apache Hadoop2.0 和 MPP 分布式数据库混合计算框架为用户提供一套完整的大数据平台解决方案,具备高性能、高可用、高扩展特性,可以为超大规模数据管理提供高性价比的通用计算存储能力。H3C 大数据平台提供数据采集转换、计算存储、分析挖掘、共享交换以及可视化等全系列功能,并广泛地用于支撑各类数据仓库系统、BI 系原创 2018-01-16 10:47:10 · 174201 阅读 · 0 评论 -
【大数据】【人工智能】【 区块链】
数据分为结构化数据(如人员信息、项目信息)和非结构化数据(如图片,文档),传统上讲,我们采用数据库来存结构化数据,如MySQL Oracle SQLServer,用NFS来存非结构化数据。 大数据,意味着数据多,如果记录数达到了上亿,一般数据库可能也就拖不动了。如果存储文件数达到几个T,甚至更多。那么NFS硬件又如何布局呢? 有时可能一台机器上的硬盘插满都不够。 有人说,不是可以原创 2018-05-04 21:42:38 · 2300 阅读 · 1 评论 -
CDH
应用场景 部署Hadoop集群过程中,可以使用开源的Apache Hadoop或者可以用CDH【国外的一家公司基于开源的封装的】,搭建更加方便,方便扩充节点规模,组件管控,性能监控等等,但是也有一个弊端,针对组件安装的目录,以及生成的配置文件位置比较难找到,目录结构混乱,所以还是请慎用。操作步骤1. 概述 CM: Cloudera Manager (Cloudera公司专有的Hadoop集原创 2017-11-20 18:00:17 · 321509 阅读 · 0 评论 -
storm
应用场景1.信息流处理Storm可用来实时处理新数据和更新数据库,兼具容错性和可扩展性。即 Storm可以用来处理源源不断流进来的消息,处理之后将结果写入到某个存储中去。2.连续计算Storm可进行连续查询并把结果即时反馈给客户端。比如把 Twitter 上的热门话题发送到浏览器中。3.分布式远程调用Storm 可用来并行处理密集查询。Storm 的拓扑结构是一个等待调用信息的分布函数,当它原创 2018-01-16 10:40:22 · 173935 阅读 · 0 评论 -
mahout
应用场景 Mahout 是一个基于 Hadoop 的机器学习和数据挖掘的分布式计算框架,封装实现了大量数据挖掘经典算法,为 Hadoop 开发人员提供了数据建模的标准,从而大大降低了大数据应用中并行挖掘产品的开发难度。在掌握了 Mahout 之后,Hadoop 开发人员可以直接调用相关算法模型的接口,方便、快捷地创建智能应用程序,从而大幅提升商业智能软件的大数据分析能力。操作步骤1.引言原创 2018-01-16 10:30:27 · 173104 阅读 · 0 评论 -
oozie
应用场景 Apache Oozie 是用于 Hadoop 平台的一种工作流调度引擎。该框架使用 Oozie 协调器促进了相互依赖的重复工作之间的协调,您可以使用预定的时间或数据可用性来触发 Apache Oozie。您可以使用 Oozie bundle 系统提交或维护一组协调应用程序。作为本练习的一部分,Oozie 运行了一个 Apache Sqoop 作业,以便在 MySQL 数据库中的数据上原创 2018-01-16 09:55:34 · 173047 阅读 · 0 评论 -
Phoenix
应用场景 当我们按照之前的博文,安装完Hadoop分布式集群之后,再安装了Hbase,当准备通过hbase shell命令开始使用Hbase的时候,发现hbase非常的难用,都是一些scan,status,describe命令等,无法像mysql,oracle,hive等通过一些简单的SQL语句来操作数据,但是通过Phoenix,它可以让Hbase可以通过SQL语句来进行操作。并且Phoenix原创 2017-11-29 11:51:47 · 322408 阅读 · 1 评论 -
SQuirreL
应用场景 当Hadoop完全分布式集群搭建安装完毕后,安装了Hbase分布式非关系型数据库,但是hbase使用起来不像通常的关系型数据库,不可以用我们熟悉的sql语句来操作数据,因此我们安装了phoenix,使SQL还给NOSQL,因此Hbase可以通过SQL语句来进行操作了!但是我们需要一个像Navicat一样的客户端工具,可以更形象化的查看数据库,连接数据库,今天就来学习这样一个工具!操作原创 2017-11-29 14:58:01 · 321764 阅读 · 1 评论 -
Impala
应用场景 在使用Hive的过程中,编写了HQL语句,发现HQL执行过程是非常慢的,因为hive采用的是把HQL转化成hadoop的MapReduce任务,然后编译,打包成jar包,分发到各个server上去执行,这个过程会很慢很慢!而impala也可以执行SQL,但是比Hive快很多,而Impala根本不用Hadoop的Mapreduce机制,直接调用HDFS的API获取文件,在内存中快速计算!原创 2017-12-01 10:24:22 · 320085 阅读 · 0 评论 -
pig
应用场景 Pig并不适合所有的数据处理任务,和MapReduce一样,它是为数据批处理而设计的,如果想执行的查询只涉及一个大型数据集的一小部分数据,Pig的实现不会很好,因为它要扫描整个数据集或其中很大一部分。 随着新版本发布,Pig的表现和原生MapRedece程序差距越来越小,因为Pig的开发团队使用了复杂、精巧的算法来实现Pig的关系操作。除非你愿意花大量时间来优化Java MapR原创 2018-01-16 09:46:18 · 172956 阅读 · 0 评论 -
HUE
应用场景 按照搭建hadoop2.6.0完全分布式集群博文部署搭建了Hadoop完全分布式集群,发现如果要操作HDFS,HIVE需要到命令行中执行,比较麻烦,而一般情况下命令行是舍不得给业余人士用的,以免把整个环境给弄坏了,所以需要提供一种界面化的操作,来操作HIVE,HDFS,监控MapReduce任务,配置Oozie等等,这里我们选择开源的HUE,接下来得学习怎么使用它!操作流程1 HUE原创 2018-01-16 09:26:25 · 172814 阅读 · 0 评论 -
Flume
应用场景 按照搭建hadoop完全分布式集群博文搭建完hadoop集群后,发现hadoop完全分布式集群自带了HDFS,MapReduce,Yarn等基本的服务,一些其他的服务组件需要自己重新安装,比如Hive,Hbase,sqoop,zookeeper,spark等,这些组件集群模式都在前面相关博文中有介绍,今天我们需要安装另外一个组件,它就是日志采集工具Flume。操作步骤1. Flume原创 2017-11-23 11:31:57 · 322300 阅读 · 0 评论 -
Kafka
应用场景 按照搭建hadoop完全分布式集群博文搭建完hadoop集群后,发现hadoop完全分布式集群自带了HDFS,MapReduce,Yarn等基本的服务,一些其他的服务组件需要自己重新安装,比如Hive,Hbase,sqoop,zookeeper,spark等,这些组件集群模式都在前面相关博文中有介绍,今天我们需要安装另外一个组件,它就是分布式消息系统Kafka。Kafka介绍 K原创 2017-11-23 16:06:55 · 327224 阅读 · 2 评论 -
sqoop
应用场景 当我们按照hadoop完全分布式集群搭建博客搭建了hadoop以后,发现这是一个空的hadoop,只有YARN,MapReduce,HDFS,而这些实际上我们一般不会直接使用,而是需要另外部署Hadoop的其他组件,来辅助使用。比如我们需要把关系型数据库中的数据,抽取到hadoop分布式文件系统中时,我们需要额外安装Spoop组件来方便数据抽取导入操作。操作步骤1. Sqoop压缩包原创 2017-11-15 11:26:05 · 321776 阅读 · 0 评论 -
zookeeper
应用场景 ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。zookeeper有配置维护、域名服务、分布式同步、组服务等这些功能,它可以通过投票选举机制选举出leader,并且在hbase中,zookeeper尤为重要,zookeeper存储了hbase的元数据,所以想要搭建hbase集群之前,必原创 2017-11-15 17:19:42 · 321213 阅读 · 1 评论 -
hbase
HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。 适合于存储大表数据(表的规模可以达到数十亿行以及数百万列),并且对大表数据的读、写访问可以达到实时级别; 利用Hadoop HDFS(Hadoop Distributed File System)作为其文件存储系统,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统; 利用ZooKeeper作为协同服务。...原创 2018-08-03 11:34:02 · 4799 阅读 · 0 评论 -
Yarn
应用场景当部署好hadoop集群后,搭建了YARN集群,开启了hadoop的HDFS和YARN服务,访问主节点IP和8088端口的YARN监控界面,发现这个All Applications界面中的开始执行时间和结束执行时间不对,应该往后加8个小时才对,导致在页面中对任务监控的时候容易出错,所以现在要进行修改!操作步骤 错误显示如上图,如果正确的话,应该加上8小时,才是我应该想要的时间。 将h原创 2017-11-20 14:48:16 · 323150 阅读 · 2 评论 -
MapReduce
应用场景 当数据量大到一定程度,传统的技术无法进行解决的时候,那么需要采用分布式计算引擎MapReduce来尝试解决了!操作步骤1. 架构图 Hadoop是由Apache基金会所开发的分布式系统基础架构,组织架构如下图所示: 正如上图所示:Hadoop包含很多优秀的子项目,例如HDFS,Mapreduce,Hbase,Hive,Zookeeper等,原创 2018-01-10 14:59:12 · 173331 阅读 · 6 评论