
大数据
文章平均质量分 87
yann.bai
你的态度决定你的高度
时刻谨记,我们永远是前进路上的初学者
展开
-
Sql-拉链法
拉链表:维护历史状态,以及最新状态数据的一种表,拉链表根据拉链粒度的不同,实际上相当于快照,只不过做了优化,去除了一部分不变的记录,通过拉链表可以很方便的还原出拉链时点的客户记录。(也可以叫---缓慢变化维)4.表中的记录变化的比例和频率不是很大,比如,总共有1亿的用户,每天新增和发生变化的有200万左右,变化的比例占的很小。2.表中的部分字段会被update更新操作,如用户联系方式,产品的描述信息,订单的状态等等。1.有一些表的数据量很大,比如一张用户表,大约1亿条记录,50个字段,这种表。原创 2022-09-09 22:01:40 · 1835 阅读 · 0 评论 -
flink的安装与简单使用
mark,稍候补充https://www.jianshu.com/p/bbaa8d72cfcf原创 2019-11-21 18:36:50 · 353 阅读 · 0 评论 -
图解Kafka的零拷贝技术到底有多牛?(二)
在上一文中“图解Kafka消息是被怎么存储的?”,我们了解了Kafka内部是如何存储数据的,其中我们提到了Kafka之所以那么快的另外一个原因就是零拷贝(zero-copy)技术。本文我们就来了解Kafka中使用的零拷贝技术为什么那么快。传统的文件拷贝传统的文件拷贝通常需要从用户态去转到核心态,经过read buffer,然后再返回到用户态的应用层buffer,然后再从用户态把数据拷贝到核...转载 2019-11-14 09:20:31 · 1007 阅读 · 0 评论 -
图解Kafka消息是被怎么存储的?(一)
在本文中,我们来了解下Kafka是如何存储消息数据的。了解了这些,有助于你在遇到性能问题的时候更好地调试,让你知道每个broker配置实际上所起的作用。那么,Kafka内部的存储是什么样的呢?Kafka以Partition作为存储单元一个partition是一个有序的,不变的消息队列,消息总是被追加到尾部。一个partition不能被切分成多个散落在多个broker上或者多个磁盘上。...转载 2019-11-14 09:20:16 · 2554 阅读 · 0 评论 -
linux负载均衡总结性说明(四层负载/七层负载)
在常规运维工作中,经常会运用到负载均衡服务。负载均衡分为四层负载和七层负载,那么这两者之间有什么不同?废话不多说,详解如下:一. 什么是负载均衡1)负载均衡(Load Balance)建立在现有网络结构之上,它提供了一种廉价有效透明的方法扩展网络设备和服务器的带宽、增加吞吐量、加强网络数据处理能力、提高网络的灵活性和可用性。负载均衡有两方面的含义:首先,大量的并发访问或数据流量分担到多台...转载 2019-11-04 09:47:41 · 127 阅读 · 0 评论 -
spark RDD 的弹性
hadoop 的MapReduce是基于数据集的,位置感知,容错 负载均衡基于数据集的处理:从物理存储上加载数据,然后操作数据,然后写入物理存储设备;基于数据集的操作不适应的场景:1,不适合于大量的迭代2,交互式查询重点是:基于数据流的方式 不能够复用曾经的结果或者中间计算结果;spark RDD是基于工作集的。工作流和工作集的共同特点:位置感知,自动容错,负载均衡等。spark的......原创 2019-11-02 22:17:19 · 1408 阅读 · 0 评论 -
笔记:kakfa中为什么顺序读写速度能与内存速度相提并论
原因可能有两点:(1)磁盘是机械结构,磁头移动、寻道时间等时间是必须要有的,速度再快也无法突破物理限制,在随机读写方面是指数级的下降。当然ssd 随机也不如顺序,但也没有磁盘那么明显。顺序读节省了一部分的物理时间,所以速度会提升很多。(2)应该还有预读取缓存的影响。一般硬盘读取都是指定位置之后,一下子读取这附近挺大的一块数据放到缓存里的,如果是顺序读取的话,可能第二次就直接命中缓存从缓存里...原创 2019-10-31 15:48:16 · 960 阅读 · 0 评论 -
paxos算法之粗浅理解
转自:https://www.nndev.cn/archives/96paxos出身paxos出身名门,它爹是没多久前获得图灵奖的在分布式领域大名鼎鼎的LeslieLamport。paxos为何而生那么Lamport他老人家为什么要搞这个东东呢,不是吃饱了撑的,而是为了解决分布式系统的大难题。分布式系统一般要求具有高可用性,高可用性一般又是通过冗余也就是多副本来解决,多副本接着又...转载 2019-07-20 22:20:41 · 200 阅读 · 0 评论 -
flink的特性及应用
首先推荐三篇三个比较好的网站,大家可以看看:(1)阿里 https://www.ververica.com/blog/blink-flink-alibaba-search(2)Zalando https://jobs.zalando.com/tech/blog/apache-showdown-flink-vs.-spark/ 这个网站很好,值得一看(3)Flink...转载 2019-07-20 21:44:06 · 870 阅读 · 0 评论 -
YARN与Zookeeper区别及联系
YARN和Zookpeer都是为了解决什么问题而产生的,应用场景分别是什么,如何结合使用等等问题,估计很多人和我以前一样,有着比较深的困惑,而这些困惑,也许你自己花那么一些时间去搭建目前流行的大数据系统,可能就豁然开朗了。或许,你可以看看网上别人怎么说,看看官网的架构图及其解释,再加上自己以往的经验,也能看到它们的本质,当然,如果要使用,很多坑在等你跳,记住,跳坑是必经之路,没有人能替你完成。...转载 2019-07-20 21:39:15 · 10601 阅读 · 1 评论 -
./zookeeper.sh start显示启动成功 ./zookeeper.sh status 显示zookeeper没有启动问题
(1)启动zookepper后,显示启动成功后,status时,显示未启动。但是使用jps命令看到了已经启动,原因是因为在zookeeper的配置文件zoo.cfg中: dataDir=/zookeeper/data 文件夹中多了一个zookeeper_server.pid这个文件这个文件是记录zookeeper是否启动成功。里面保存的是zookeeper的启动id,当服务器重启时zook...原创 2019-07-20 13:42:30 · 2011 阅读 · 1 评论 -
Datanode没起来,报错RemoteException(org.apache.hadoop.hdfs.protocol.UnregisteredNodeException)的解决方案
集群中五台datanode结果只起来四台,查看没起来的那台datanode日志,发现报错如下:org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.protocol.UnregisteredNodeException): Data node DatanodeRegistration(192.168.1.204:50010, ...原创 2019-07-20 13:05:16 · 335 阅读 · 0 评论 -
yarn中的一些概念
最近项目在用kylin,在搭建开发环境和测试环境后,然后在kylin上建cube,kylin建cube实际就是调用集群的MR跑任务(也可以调用spark作为引擎),在数据量小或者维度(kylin里面的一个概念)少的时候没问题,后来数据量大或维度多了,就经常出现OOM的问题。 其实一开始就知道是并行度过高的问题,也尝试过在kylin里面调试,但并没有用。后来通过jps查看yarnchild个数...转载 2019-07-20 09:45:39 · 367 阅读 · 0 评论 -
Apache Avro
Avro(读音类似于[ævrə])是Hadoop的一个子项目,由Hadoop的创始人Doug Cutting(也是Lucene,Nutch等项目的创始人,膜拜)牵头开发,Avro是一个数据序列化系统,设计用于支持大批量数据交换的应用。它的主要特点有:支持二进制序列化方式,可以便捷,快速地处理大量数据;动态语言友好,Avro提供的机制使动态语言可以方便地处理Avro数据。当前市场上有很...转载 2019-07-28 16:11:28 · 146 阅读 · 0 评论 -
filebeat工作原理
Filebeat是本地文件的日志数据采集器。 作为服务器上的代理安装,Filebeat监视日志目录或特定日志文件,tail file,并将它们转发给Elasticsearch或Logstash进行索引、kafka 等。工作原理:Filebeat由两个主要组件组成:prospector 和harvester。这些组件一起工作来读取文件(tail file)并将事件数据发送到您指定的输出启...转载 2019-07-24 10:22:37 · 236 阅读 · 0 评论 -
filebeat的安装(2019.07.25实测可行)
ELK官网 :https://www.elastic.co/cn/downloads/beats/filebeat 官网是学习一门新技术的百科全书,要想学习什么东西首先去官网翻一翻,就会发现很多自己很多想要知道的知识点1、安装(系统ubuntu:16.04) 根据不同系统的安装步骤是不同的,在我这里看不明白的可以参考以下两个网址 https://www.elastic.co/...原创 2019-07-25 11:24:47 · 668 阅读 · 0 评论 -
大数据flume日志采集系统详解
一.flume介绍 flume 是一个cloudera提供的 高可用高可靠,分布式的海量日志收集聚合传输系统。Flume支持日志系统中定制各类数据发送方,用于收集数据。同时flume提供对数据进行简单处理,并写到各种数据接收方(可定制)的能力。二.功能介绍日志收集Flume最早是Cloudera提供的日志收集系统,目前是Apache下的一个孵化项目,Flume支持在日志...转载 2019-07-22 09:33:26 · 3946 阅读 · 0 评论 -
Docker 核心技术与实现原理
提到虚拟化技术,我们首先想到的一定是 Docker,经过四年的快速发展 Docker 已经成为了很多公司的标配,也不再是一个只能在开发阶段使用的玩具了。作为在生产环境中广泛应用的产品,Docker 有着非常成熟的社区以及大量的使用者,代码库中的内容也变得非常庞大。同样,由于项目的发展、功能的拆分以及各种奇怪的改名 PR,让我们再次理解 Docker 的的整体架构变得更加困难。虽然 Do...转载 2019-07-26 09:10:58 · 126 阅读 · 0 评论 -
图解RPC
原创 2019-07-28 10:46:24 · 366 阅读 · 0 评论 -
IaaS和PaaS与SaaS形象解释
IaaS和PaaS与SaaS之间有什么区别?IaaS(Infrastructure as a Service),即基础设施即服务。就像烧菜一样我们给你准备好食材,收取一些食材的费用,后续的烧制就要自己动手了。运用到企业中就是我们提供所有计算基础设施,包括处理CPU、内存、存储、网络和其它基本的计算资源,并收取一定的维护费。用户就能够在这些基础设施上部署和运行任意软件,包括操作系统和应用...转载 2019-07-28 13:41:41 · 1295 阅读 · 0 评论 -
Protocol Buffer
一、Protocol Buffer 与 XML、JSON 的区别Protocol Buffer 和 XML、JSON一样都是结构数据序列化的工具,但它们的数据格式有比较大的区别:首先,Protocol Buffer 序列化之后得到的数据不是可读的字符串,而是二进制流其次,XML 和 JSON 格式的数据信息都包含在了序列化之后的数据中,不需要任何其它信息就能还原序列化之后的数据;但使用 ...转载 2019-07-28 16:03:25 · 653 阅读 · 0 评论 -
Linux下搭建rabbitmq
(1)由于rabbitmq是由erlang编写,所以需要erlang的环境。安装erlang:(1.1)下载Erlang安装包wgethttp://erlang.org/download/otp_src_20.3.tar.gz(1.2)上传到服务器opt目录下,进入到opt目录进行安装。(哪个目录都可以# cd /opt# mkdir -p /usr/local/er...原创 2019-09-28 14:35:11 · 171 阅读 · 2 评论 -
消息队列简介
(转) 消息队列使用的四种场景介绍一、消息队列介绍消息队列中间件是分布式系统中重要的组件,主要解决应用耦合,异步消息,流量削锋等问题实现高性能,高可用,可伸缩和最终一致性架构使用较多的消息队列有ActiveMQ,RabbitMQ,ZeroMQ,Kafka,MetaMQ,RocketMQ二、消息队列应用场景以下介绍消息队列在实际应用中常用的使用场景。异步处理,应用解耦,流量削...转载 2019-09-29 09:19:15 · 250 阅读 · 0 评论 -
Navicat远程连接oracle问题
问题记录:(1)navicat for oracle 11连接oracle的时候出现 没有匹配的验证协议的问题修改你的远程服务器端的下面这个文件SQLNET.ALLOWED_LOGON_VERSION=8(2)当解决完上面的问题,下面又出问题了,oracle11用户名口令无效 登录被拒绝,可是我的账号密码没有错误啊。找了一圈,发现了个解决方案。可能这个解决方案也是解决上面第一...原创 2019-10-08 12:32:07 · 458 阅读 · 0 评论 -
Spark集群无法停止Master
Question前段时间Spark遇到一个Spark集群无法停止的问题,操作为./stop-all.shno org.apache.spark.deploy.master.Master to stopSolution因为Spark程序在启动后会在/tmp目录创建临时文件/tmp/spark-cdahdp-org.apache.spark.deploy.master.Master-1...转载 2019-06-04 10:02:14 · 882 阅读 · 0 评论 -
yarn日常维护之nm健康状态为false的原因查找
最近几天使用yarn集群来布flink,结果发现每次nodemanager只能启动一个,而另一个无法启动,然后取8042端口查看情况,发现NodeHealthyStatus的状态变成了False,正常情况下应该是true,然后查看日志发现,2019-07-18 21:45:50,504 WARN org.apache.hadoop.yarn.server.nodemanager.Di...原创 2019-07-19 10:24:28 · 1138 阅读 · 0 评论 -
flume+springboot+kafka+sparkStream集成
接上篇flume+springboot+kafka集成,本篇将sparkStream也集成进来了,sparkStream作为kafka的消费者,接受kafka的数据,并实现日志错误、警告数据的实时计算(1)环境还是前文中的环境,这里新添加的只有一个sparkStream程序(本文上传的所有代码都是可以跑通)package com.saprkimport org.apache.kafk...原创 2019-07-12 16:40:14 · 1359 阅读 · 0 评论 -
flume的安装
好久没有更新大数据的一些东西了,今天记录一些自己的flume的安装过程,当然我的所有环境还是都安装在/opt/下的 flume的安装: (1)下载 wget http://mirrors.tuna.tsinghua.edu.cn/apache/flume/1.7.0/apache-flume-1.7.0-bin.tar.gz ...原创 2019-07-08 19:33:11 · 180 阅读 · 0 评论 -
hadoop-MapReduce 实现TopK的方法
(1)本文的目的是对搜狗的用户查询日志的利用sum进行排序,选出搜索比较热的一些查询,语料集如下:列名分别为 访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL(2)这里实现分为了三种方式去实现(2.1)第一种,利用TreeMap与重写cleanUp进行实现,个人觉得这是最简单的一种方法了,但是它有一定的缺点,缺点在后面会提到,...原创 2019-07-08 09:52:03 · 819 阅读 · 0 评论 -
MapRdeuce&Yarn的工作机制
MapRdeuce&Yarn的工作机制流程图(包括旧版1.X与新版2.X机制的不同)什么是YarnChild:答:MrAppmaster运行程序时向resouce manager 请求的maptask/reduceTask。也是运行程序的容器。其实它就是一个运行程序的进程。图解说下:hadoop1版本的MapRdeuce&Yarn的工作机制...转载 2019-07-07 17:02:18 · 231 阅读 · 0 评论 -
Hive2.3.5的安装
这节到了hive2.3.5的安装了,我之前已经安装了hbase和zookeeper,当然,还有mysql,并且实际中没有用默认的derby,而是利用mysql做元数据库。只需要在master节点安装mysql就可以了,slave节点不用安装即可。并且安装过程中很容易出现我下面问题中出现的问题1,所以遇到马上解决掉最好。(1)首先放上下载地址:http://mirror.bit.edu.cn/a...原创 2019-06-10 15:55:24 · 2113 阅读 · 1 评论 -
HDFS常用命令
1.帮助命令 可以通过此命令了解更多命令hdfs dfs -help2.根目录详情hdfs dfs -ls /3.文件上传到hdfs的根目录下hdfs dfs -put a.txt /a.txt4.剪切文件到hdfs的根目录下hdfs dfs -moveFromLocal a.txt /aa.txt5.从hdfs根目录下载文件到指定位置hdfs...转载 2019-06-04 10:53:55 · 485 阅读 · 0 评论 -
spark 小demo
本文是利用scala进行wordcount的demo,环境是scala 2.11.8、esclipse for scala 、spark 2.1.0 hadoop 2.7.31、首先命令行形式运行demo(1)在你hdfs下的随便一个文件夹新建一个txt文件,做被统计文件夹,这里我是在tmp文件夹下新建的hdfs dfs -touchz /tmp/input.txt然后在文件...原创 2019-06-04 10:45:19 · 4956 阅读 · 0 评论 -
HBase1.4.9的安装
前几篇blog讲了从hadoop spark 到zookeeper的安装,本篇讲解一下hbase的安装首先放上hadoop与hbase的版本匹配的情况,当然,这可能是比较老的一份了,但是对于我来说已经够用了,新的版本的大家可以再找一下(1)放上Hbase的压缩包下载地址:https://mirrors.cnnic.cn/apache/hbase/1.4.9/,下载后我还是一如既往的放在...原创 2019-06-09 20:17:12 · 1309 阅读 · 0 评论 -
Zookeeper3.4.19的安装
前面几章介绍了hadoop、spark的安装,下面简单介绍一下zookeeper的安装。ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。安装步骤:我的安装包一般解压在/opt/目录下。...原创 2019-06-09 18:24:51 · 204 阅读 · 8 评论 -
spark+hadoop2.7.3 从搭建到运行(四、spark的搭建)
在第一节中也讲了部分的spark的搭建,这里再提一下。master节点:1.下载文件:wget -O "spark-2.1.0-bin-hadoop2.7.tgz" "http://d3kbcqa49mib13.cloudfront.net/spark-2.1.0-bin-hadoop2.7.tgz"2.解压并移动至相应的文件夹;tar -xvf spark-2.1....原创 2019-05-27 16:27:37 · 439 阅读 · 0 评论 -
hadoop2.7.3 从搭建到运行(三、简易demo篇)
刚开始学时,我想找一个比较简单的demo入门,但是都不符合我的版本,所以很难受,下面是我的一个过程。一、新建一个maven工程博主用的是esclipse,新建maven工程,新建成功后整个目录结构是这样的,(其中resources文件夹是我自己新建的)二、pom.xml引入你的依赖库,这里我用了这么几个<dependencies> ...原创 2019-05-27 09:58:11 · 531 阅读 · 0 评论 -
hadoop2.7.3 从搭建到运行(二、运行测试篇)
安装好你的hadoop之后可以先运行一下自带的wordcount程序,在这我说一下详细步骤。因为hadoop的命令前都是hadoop XX XXX XXX类型的,所以大家可以学习一下关于hadoop的命令,用起来比较方便。这里推荐hadoop官方命令手册:http://hadoop.apache.org/docs/r1.0.4/cn/commands_manual.html(1)运行前你要...原创 2019-05-27 09:40:49 · 347 阅读 · 0 评论 -
flume+springboot+kafka+sparkStream+mysql集成
上文中讲了flume+springboot+kafka+sparkStream集成,那么sparkStream处理完了的数据放在哪呢,这里我放在了mysql中,因为后面可能要做可视化,所以放在mysql中可能比较容易处理一些。代码放在哪里托管好呢,大家有什么建议么,git上传有点慢,csdn要积分,难受(1)先建个数据库,建个表,设个主键(因为后面用的是有则更新,没有就插入的策略即repl...原创 2019-07-12 22:17:07 · 1722 阅读 · 2 评论 -
spark报错Failed to send RPC XXX to / XXX: java.nio.channels.ClosedChannel
命令如下:bin/spark-submit --class com.practice1.Tax1 --master yarn --num-executors 4 --driver-memory 1g --executor-memory 1g /opt/software/data/sparkcount.jar hdfs:/data_in/taxi.csv1、错误如下:19/07/0...原创 2019-07-09 23:59:38 · 13812 阅读 · 7 评论