
大数据进阶之路
文章平均质量分 54
本专栏记录了自己的大数据的入门 进阶 的历程,一点一点更新,积跬步,至千里。
yann.bai
你的态度决定你的高度
时刻谨记,我们永远是前进路上的初学者
展开
-
prometheus安装以及错误汇总
1、msg="Failed to create directory for logging active queries"解决:对运行目录 chmod 777 XXX 增加权限,然后重新运行即可其余异常参考:我在B站学运维之Prometheus监控所遇问题解决总结(11) - 哔哩哔哩原创 2022-03-11 21:26:05 · 1535 阅读 · 0 评论 -
npm运行命令时抛错
sudo npm uninstall npm -ginternal/modules/cjs/loader.js:1032 throw err; ^Error: Cannot find module 'semver'Require stack:- /Users/XXXX/tenv/node/v14.4.0/lib/node_modules/npm/lib/utils/unsupported.js- /Users/XXXX/tenv/node/v14.4.0/lib/node_modul.原创 2022-03-08 22:26:25 · 2824 阅读 · 0 评论 -
Flink的双亲委派机制
我们知道,在 JVM 中,一个类加载的过程大致分为加载、链接(验证、准备、解析)、初始化5个阶段。而我们通常提到类的加载,就是指利用类加载器(ClassLoader)通过类的全限定名来获取定义此类的二进制字节码流,进而构造出类的定义。Flink 作为基于 JVM 的框架,在 flink-conf.yaml 中提供了控制类加载策略的参数 classloader.resolve-order,可选项有 child-first(默认)和 parent-first。本文来简单分析一下这个参数背后的含义。pa转载 2022-03-08 00:46:31 · 1208 阅读 · 0 评论 -
海量Top K问题
1、海量日志数据,提取出某日访问百度次数最多的那个IP。 此题,在我之前的一篇文章算法里头有所提到,当时给出的方案是:IP的数目还是有限的,最多2^32个,所以可以考虑使用hash将ip直接存入内存,然后进行统计。 再详细介绍下此方案:首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个 IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率转载 2022-02-13 19:36:58 · 163 阅读 · 0 评论 -
Spark stop时抛出异常
在集群运行spark任务时,发现spark在stop时抛出了一个异常,具体异常如下:21/10/24 19:56:51 ERROR TransportRequestHandler: Error while invoking RpcHandler#receive() for one-way message.org.apache.spark.SparkException: Could not find CoarseGrainedScheduler. at org.apache.spark.rpc..原创 2021-10-24 22:05:31 · 2474 阅读 · 2 评论 -
storm与kafka进行集成写入HDFS
接上篇storm与kafka进行集成,本篇将storm处理好的数据持久化到hdfs中,主要思路是将最后一个Bolt改为hdfsBolt,将kafka的输出进行分词 统计,将最后的统计结果提交到hdfsBolt中,保存到hdfs中。(1)HDFSBolt简介HdfsBolt类的集成层次关系:java.lang.Object继承 org.apache.storm.topology.bas...原创 2019-07-18 11:19:23 · 399 阅读 · 0 评论 -
storm与kafka进行集成
接上篇 storm的安装,本篇进行storm与kafka进行集成工作。喷口(spout)是流的来源。 例如,spout可能会读取卡夫卡主题中的元组并将其作为流发送。 Bolts消耗输入流,处理并可能发射新的流。 Bolts可以做任何事情,从运行功能,过滤元组,流聚合,流式连接,与数据库交互等等。 Storm拓扑中的每个节点并行执行。 一个拓扑无限期地运行,直到终止它。 Storm会自动重新分配...原创 2019-07-18 11:00:47 · 471 阅读 · 0 评论 -
Storm的安装
(1)还是不变的下载环节,这里我用的storm-1.1.3版本,试过2.0.0,在我项目中很多bug,可能是版本之间不匹配的问题吧。还是下载到/opt/software下的噢wget https://mirrors.tuna.tsinghua.edu.cn/apache/storm/apache-storm-1.1.3/apache-storm-1.1.3.tar.gz(2)编辑系统配置...原创 2019-07-18 10:13:03 · 4531 阅读 · 2 评论 -
flume+springboot+kafka集成
接上篇flume+springboot,本篇讲解一下是如何集成kafka的。1、首先,在slave1或者slave2的flume/conf中添加配置文件:kafka_flume.confa1.sources = r1a1.sinks = k1a1.channels = c1a1.sources.r1.type = avroa1.sources.r1.bind = 10.1.18...原创 2019-07-11 15:49:56 · 1480 阅读 · 0 评论 -
Zookeeper的Leader选举机制
从3.4.0版本开始,ZooKeeper只保留了TCP版本的FastLeaderElection选举算法。FastLeaderElection选举算法是标准的Fast Paxos算法实现,可解决LeaderElection选举算法收敛速度慢的问题。服务器状态 LOOKING不确定Leader状态。该状态下的服务器认为当前集群中没有Leader,会发起Leader选举 FOLL...转载 2019-07-11 11:03:36 · 288 阅读 · 0 评论 -
Kafka的安装
下载:https://www.apache.org/dyn/closer.cgi?path=/kafka/2.1.1/kafka_2.11-2.1.1.tgzhttp://mirrors.tuna.tsinghua.edu.cn/apache/kafka/2.1.1/kafka_2.11-2.1.1.tgz (1)解压到/opt/文件夹下 tar -zxvf so...原创 2019-07-10 23:06:27 · 240 阅读 · 0 评论 -
kafka 与zk
(1)kafka中自带有一个zk,但是我又另外安装了一个zk怎么办呢首先,他是不会冲突的,因为在使用kafka时,你可以自己决定使用哪个zookeeper。自带的在kafa/bin下有个zookeeper-server-start.sh启动脚本而另外安装的在zookeeper/bin/zkServer.sh start 即可启动(2)Kafka 使用 Zookeeper 做什么?...转载 2019-07-10 22:30:40 · 505 阅读 · 0 评论 -
flume集群+springboot日志收集简单实现
本文主要对springboot构建的javaweb项目,利用flume进行日志收集,并且持久化到hdfs上,用来后期的数据分析用,这里的javaweb项目你可以换成你的项目,然后简单体验一下分布式日志收集的一个最简单的demo本项目利用两个节点作为日志收集,一个节点作为总收集节点持久化到hdfs中,整体流程图如下(有点丑):试验环境:apache-flume-1.7.0、Hado...原创 2019-07-10 21:37:55 · 4657 阅读 · 1 评论 -
spark报错Failed to send RPC XXX to / XXX: java.nio.channels.ClosedChannel
命令如下:bin/spark-submit --class com.practice1.Tax1 --master yarn --num-executors 4 --driver-memory 1g --executor-memory 1g /opt/software/data/sparkcount.jar hdfs:/data_in/taxi.csv1、错误如下:19/07/0...原创 2019-07-09 23:59:38 · 13812 阅读 · 7 评论 -
flume的安装
好久没有更新大数据的一些东西了,今天记录一些自己的flume的安装过程,当然我的所有环境还是都安装在/opt/下的 flume的安装: (1)下载 wget http://mirrors.tuna.tsinghua.edu.cn/apache/flume/1.7.0/apache-flume-1.7.0-bin.tar.gz ...原创 2019-07-08 19:33:11 · 180 阅读 · 0 评论 -
hadoop-MapReduce 实现TopK的方法
(1)本文的目的是对搜狗的用户查询日志的利用sum进行排序,选出搜索比较热的一些查询,语料集如下:列名分别为 访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL(2)这里实现分为了三种方式去实现(2.1)第一种,利用TreeMap与重写cleanUp进行实现,个人觉得这是最简单的一种方法了,但是它有一定的缺点,缺点在后面会提到,...原创 2019-07-08 09:52:03 · 819 阅读 · 0 评论 -
MapRdeuce&Yarn的工作机制
MapRdeuce&Yarn的工作机制流程图(包括旧版1.X与新版2.X机制的不同)什么是YarnChild:答:MrAppmaster运行程序时向resouce manager 请求的maptask/reduceTask。也是运行程序的容器。其实它就是一个运行程序的进程。图解说下:hadoop1版本的MapRdeuce&Yarn的工作机制...转载 2019-07-07 17:02:18 · 231 阅读 · 0 评论 -
Hive2.3.5的安装
这节到了hive2.3.5的安装了,我之前已经安装了hbase和zookeeper,当然,还有mysql,并且实际中没有用默认的derby,而是利用mysql做元数据库。只需要在master节点安装mysql就可以了,slave节点不用安装即可。并且安装过程中很容易出现我下面问题中出现的问题1,所以遇到马上解决掉最好。(1)首先放上下载地址:http://mirror.bit.edu.cn/a...原创 2019-06-10 15:55:24 · 2113 阅读 · 1 评论 -
HBase1.4.9的安装
前几篇blog讲了从hadoop spark 到zookeeper的安装,本篇讲解一下hbase的安装首先放上hadoop与hbase的版本匹配的情况,当然,这可能是比较老的一份了,但是对于我来说已经够用了,新的版本的大家可以再找一下(1)放上Hbase的压缩包下载地址:https://mirrors.cnnic.cn/apache/hbase/1.4.9/,下载后我还是一如既往的放在...原创 2019-06-09 20:17:12 · 1309 阅读 · 0 评论 -
Zookeeper3.4.19的安装
前面几章介绍了hadoop、spark的安装,下面简单介绍一下zookeeper的安装。ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。安装步骤:我的安装包一般解压在/opt/目录下。...原创 2019-06-09 18:24:51 · 204 阅读 · 8 评论 -
HDFS常用命令
1.帮助命令 可以通过此命令了解更多命令hdfs dfs -help2.根目录详情hdfs dfs -ls /3.文件上传到hdfs的根目录下hdfs dfs -put a.txt /a.txt4.剪切文件到hdfs的根目录下hdfs dfs -moveFromLocal a.txt /aa.txt5.从hdfs根目录下载文件到指定位置hdfs...转载 2019-06-04 10:53:55 · 485 阅读 · 0 评论 -
spark 小demo
本文是利用scala进行wordcount的demo,环境是scala 2.11.8、esclipse for scala 、spark 2.1.0 hadoop 2.7.31、首先命令行形式运行demo(1)在你hdfs下的随便一个文件夹新建一个txt文件,做被统计文件夹,这里我是在tmp文件夹下新建的hdfs dfs -touchz /tmp/input.txt然后在文件...原创 2019-06-04 10:45:19 · 4956 阅读 · 0 评论 -
Spark集群无法停止Master
Question前段时间Spark遇到一个Spark集群无法停止的问题,操作为./stop-all.shno org.apache.spark.deploy.master.Master to stopSolution因为Spark程序在启动后会在/tmp目录创建临时文件/tmp/spark-cdahdp-org.apache.spark.deploy.master.Master-1...转载 2019-06-04 10:02:14 · 882 阅读 · 0 评论 -
spark+hadoop2.7.3 从搭建到运行(四、spark的搭建)
在第一节中也讲了部分的spark的搭建,这里再提一下。master节点:1.下载文件:wget -O "spark-2.1.0-bin-hadoop2.7.tgz" "http://d3kbcqa49mib13.cloudfront.net/spark-2.1.0-bin-hadoop2.7.tgz"2.解压并移动至相应的文件夹;tar -xvf spark-2.1....原创 2019-05-27 16:27:37 · 439 阅读 · 0 评论 -
hadoop2.7.3 从搭建到运行(三、简易demo篇)
刚开始学时,我想找一个比较简单的demo入门,但是都不符合我的版本,所以很难受,下面是我的一个过程。一、新建一个maven工程博主用的是esclipse,新建maven工程,新建成功后整个目录结构是这样的,(其中resources文件夹是我自己新建的)二、pom.xml引入你的依赖库,这里我用了这么几个<dependencies> ...原创 2019-05-27 09:58:11 · 531 阅读 · 0 评论 -
hadoop2.7.3 从搭建到运行(二、运行测试篇)
安装好你的hadoop之后可以先运行一下自带的wordcount程序,在这我说一下详细步骤。因为hadoop的命令前都是hadoop XX XXX XXX类型的,所以大家可以学习一下关于hadoop的命令,用起来比较方便。这里推荐hadoop官方命令手册:http://hadoop.apache.org/docs/r1.0.4/cn/commands_manual.html(1)运行前你要...原创 2019-05-27 09:40:49 · 347 阅读 · 0 评论 -
hadoop2.7.3 从搭建到运行(一、安装篇)
一、搭建(搭建过程参考小狼咕咕,部分有删改)以下所有操作尽量使用root用户进行操作,权限给的够,操作起来方便,实际操作过程中经验所得。1.选取三台服务器(Ubantu系统64位)原本的第一行 localhost就别删除了 114.55.246.88 master 114.55.246.77 slave1 114.55.246.93slave2 之后...转载 2019-05-26 23:59:22 · 578 阅读 · 0 评论 -
flume+springboot+kafka+sparkStream集成
接上篇flume+springboot+kafka集成,本篇将sparkStream也集成进来了,sparkStream作为kafka的消费者,接受kafka的数据,并实现日志错误、警告数据的实时计算(1)环境还是前文中的环境,这里新添加的只有一个sparkStream程序(本文上传的所有代码都是可以跑通)package com.saprkimport org.apache.kafk...原创 2019-07-12 16:40:14 · 1359 阅读 · 0 评论 -
flume+springboot+kafka+sparkStream+mysql集成
上文中讲了flume+springboot+kafka+sparkStream集成,那么sparkStream处理完了的数据放在哪呢,这里我放在了mysql中,因为后面可能要做可视化,所以放在mysql中可能比较容易处理一些。代码放在哪里托管好呢,大家有什么建议么,git上传有点慢,csdn要积分,难受(1)先建个数据库,建个表,设个主键(因为后面用的是有则更新,没有就插入的策略即repl...原创 2019-07-12 22:17:07 · 1722 阅读 · 2 评论 -
Storm,Spark和Flink简介 联系与区别
storm、spark streaming、flink是三个最著名的分布式流处理框架,并且都是开源的分布式系统,具有低延迟、可扩展和容错性诸多优点,允许你在运行数据流代码时,将任务分配到一系列具有容错能力的计算机上并行运行,都提供了简单的API来简化底层实现的复杂程度。1、Apache StormStorm是一个免费并开源的分布式实时计算系统。利用Storm可以很容易做到可靠地处理无...转载 2019-07-15 23:02:44 · 6294 阅读 · 0 评论 -
Linux 的基本操作(文件与目录管理)
本文转自张俊杰:https://www.cnblogs.com/zhang-jun-jie/p/9266791.html文件与目录管理在linux中什么是一个文件的路径呢,说白了就是这个文件存在的地方,例如在上一章提到的/root/.ssh/authorized_keys这就是一个文件的路径。如果你告诉系统这个文件的路径,那么系统就可以找到这个文件。在linux的世界中,存在着绝对路径和...转载 2019-07-14 16:31:04 · 694 阅读 · 0 评论 -
linux中的基本网络配置
(1)设置ip 网关 掩码等一些配置信息vim /etc/network/interfaces可以在这将linux修改为静态ip,修改完后重启一下网络,使修改生效/etc/init.d/networking restart(2)设置nameservervim /etc/resolv.conf在设置这个地方的时候,看到有人说只要上面interfaces里面设置好...原创 2019-07-14 18:35:15 · 256 阅读 · 0 评论 -
消息队列简介
(转) 消息队列使用的四种场景介绍一、消息队列介绍消息队列中间件是分布式系统中重要的组件,主要解决应用耦合,异步消息,流量削锋等问题实现高性能,高可用,可伸缩和最终一致性架构使用较多的消息队列有ActiveMQ,RabbitMQ,ZeroMQ,Kafka,MetaMQ,RocketMQ二、消息队列应用场景以下介绍消息队列在实际应用中常用的使用场景。异步处理,应用解耦,流量削...转载 2019-09-29 09:19:15 · 250 阅读 · 0 评论