
基础知识
BornZhu
这个作者很懒,什么都没留下…
展开
-
kafka的基本使用
1.Kafka的架构图片来自官网,架构如图所示,第一层为消息生产者,第二层为kafka集群,第三层为消息的消费者。kafka的集群又由broker和topic组成,一个broker就相当于一个kafka,topic是相当于消息的标签,对应标签给对应的消费者消费。2.kafka的启动配置文件很重要,kafka的启动需要配置$KAFKA_HOME/config/server.p原创 2017-11-30 10:15:07 · 307 阅读 · 0 评论 -
Spark streaming整合Flume之pull方式
1.flume agent的配置simple-agent.sources = netcat-sourcesimple-agent.sinks = spark-sinksimple-agent.channels = memory-channelsimple-agent.sources.netcat-source.type = netcatsimple-agent.sour原创 2017-12-14 20:06:07 · 362 阅读 · 0 评论 -
Spark streaming整合flume之Push方式
1.Flume agent的配置simple-agent.sources = netcat-sourcesimple-agent.sinks = avro-sinksimple-agent.channels = memory-channelsimple-agent.sources.netcat-source.type = netcatsimple-agent.sources原创 2017-12-13 15:33:17 · 323 阅读 · 0 评论 -
Flume和Kafka的整合完成实时数据采集
1.Flume和Kafka整合框架2.写FLUME的agent配置文件exec-memory-avro.confexec-memory-avro.sources = exec-sourceexec-memory-avro.sinks = avro-sinkexec-memory-avro.channels = memory-channelexec-memor原创 2017-12-02 10:25:26 · 2313 阅读 · 0 评论 -
Kafka Consumer Java API实现
在之前生产者的基础上1.Kafka配置类public class KafkaProperties { public static final String ZK = "192.168.254.128:2181"; public static final String TOPIC = "hello_topic"; public static final Strin原创 2017-12-01 20:30:13 · 1413 阅读 · 1 评论 -
Kafka的部署
1.安装Zookeeper百度cdh5,获取下载链接地址,wget命令下载Zookeeper;解压安装,tar -zxvf 2.配置Zookeeper到系统的环境变量vi ~/.bash_profileexport ZK_HOME=/home/bigdata/app/zookeeper-3.4.5-cdh5.7.0export PATH=$ZK_HOME/bin:$原创 2017-11-27 21:39:46 · 328 阅读 · 0 评论 -
Flume应用之三——将一个服务器上的日志实时采集到另一个服务器上
条件有限,在一台机器上进行了测试思路是这样:将一台服务器部署的flume中的sink对接到另一台服务器flume中的source。那么,agent 1:exec source + memory channel + avro sinkagent 2 : avro source + memory channel + logger sink1.写配置文件配置文件一 example3.原创 2017-11-27 10:59:41 · 5476 阅读 · 0 评论 -
Flume的使用之二——实时监控文件的数据变化并发送到工作台
1.写配置文件agent:exec source + memory channel + logger sinka1.sources = r1a1.sinks = k1a1.channels = c1a1.sources.r1.type = exec #exec source 可以运行一个给定的shell命令a1.sources.r1.command = tail -原创 2017-11-22 11:17:16 · 1213 阅读 · 0 评论 -
Flume的使用一:从指定端口采集数据发送到工作台
1.写配置文件(1)配置Source(2)配置Channel(3)配置Sink(4)串联三个组件a1:agent的名称r1:source的名称k1:sink的名称c1:channel的名称#agent的定义a1.sources = r1a1.sinks=k1a1.channels=c1#描述、配置sourcea1.sources.r1.typ原创 2017-11-19 20:07:56 · 1260 阅读 · 0 评论 -
Flume环境部署
1.Flume安装前置条件(1)Java1.7或以上版本(2)足够的内存(3)足够的磁盘空间(4)目录读写权限2.Flume的下载搜索cdh5,找到flume-ng-1.6.0-cdh5.7.0.tar.gz,右键复制链接地址,wget下载flume的安装包3.Flume的安装将下载好的安装包解压到相应目录,tar -zvxf -C4.Flume环境变量配置原创 2017-11-18 17:35:09 · 424 阅读 · 0 评论 -
linux环境变量的配置(jdk)
在Oracle官网上下载好对应的jdk版本,并解压完成打开环境变量配置文件,~/.bash_profile文件,export JAVA_HOME="jdk路径"export PATH = $JAVA_HOME/bin:$PATH之后source一下,java -version检查一下。其他以此类推...原创 2017-11-15 15:48:27 · 214 阅读 · 0 评论 -
ssh免密码登录方法
假设有两台服务器master,slave需要ssh免密码登录。首先在master上:ssh-keygen -t rsa 一路回车此时会在~/.ssh/ 下生成,密匙对id_rsa和id_rsa.pubcp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys拷贝成authorized_keys之后ssh-copy-id master@$slave i原创 2018-04-21 09:36:12 · 292 阅读 · 0 评论 -
zookeeper多节点部署
1.首先去官网zookeeper.apache.org下载zookeeper压缩包。2.解压:tar -zxvf zookeeper3.软连接:ln -s zookeeper-3.4.5 zookeeper4.配置环境变量:~/.bash_profile export ZK_HOME=xxxexport PATH=$ZK_HOME/bin:$PATH5.配置zookeepe原创 2018-04-21 11:41:21 · 1644 阅读 · 0 评论 -
为什么要重写equals()和hashcode()方法?
equals()和hashcode()方法都是Object对象中的方法。equals和hashcode间有如下规则:(1)如果两对像相同(即用equals比较返回true),那么它们的hashcode值一定相同(2)如果两个对象的hashcode相同,它们不一定相同(即equals比较返回不一定为true)为什么要重写equals方法? 如果不重写equals,那么比较的是对象的引用是否指向...原创 2018-05-28 10:17:08 · 498 阅读 · 0 评论 -
Git常用命令
Git是一个强大的代码版本管理工具记录一下常用的Git命令:git clone <url> clone远程版本库git status 查看当前状态git add . 跟踪所有改动过的文件git commit -...原创 2018-07-22 15:50:22 · 326 阅读 · 0 评论 -
Spark streaming整合Kafka之Receiver方式
1.Kafka的测试确保Kafka的正常工作,为后续工作打好基础(1)启动zookeeper(2)启动kafka(3)创建topic(4)分别启动生产者和消费者,测试本topic能否正常生产和消费消息2.spark streaming应用程序开发import org.apache.spark.SparkConfimport org.apache.spark.str原创 2017-12-15 10:27:55 · 537 阅读 · 0 评论 -
Spark streaming整合Kafka之Direct方式
1.spark streaming应用程序编写import org.apache.spark.SparkConfimport org.apache.spark.streaming.kafka.KafkaUtilsimport org.apache.spark.streaming.{Seconds, StreamingContext}import kafka.serializer.St原创 2017-12-21 10:37:26 · 402 阅读 · 0 评论 -
初识实时流处理
这是实时流处理的一般架构,我们在手机或者是网站上的访问或搜索操作都会有一条日志信息记录到WebServer上,之后我们借助日志收集框架Flume把实时的日志收集过来,再通过消息队列Kafka传入到Spark/Storm,这里的Kafka起到一个缓冲作用,业务逻辑完成后,将结果写入到数据库中,最后通过前端可视化把结果展示。原创 2017-11-17 20:10:31 · 368 阅读 · 0 评论 -
Java线程的实现方式及区别
java多线程的实现有两种方式:第一种通过继承Thread类,第二种通过Runnable接口。第一种:通过继承Thread类。该方法在新定义的子类中重写run方法,当调用start()方法时,直接执行run()通过构造函数可以重新定义线程的名字。class Thread1 extends Thread{ public Thread1(String name){原创 2018-03-11 19:38:55 · 389 阅读 · 0 评论 -
RDD与DataFrame的互操作
1.DataFrame与RDD互操作方式一:反射方式(1)使用反射来推断包含了特定数据类型的RDD的元数据(2)使用DataFrame API或者sql方式编程//添加隐式转换import spark.implicits._val spark = SparkSession.builder().appName("xxx").master("local[2]").getOr原创 2018-03-08 20:12:21 · 954 阅读 · 0 评论 -
JDBC
1.JDBC简介JDBC的全称是Java Database Connectivity,叫作java数据库连接。它包括了一组与数据库交互的api,还有与数据库进行通信的驱动程序。2.JDBC连接数据库涉及到建立一个JDBC连接的编程主要有四个步骤:(1)导入JDBC驱动:只有拥有了驱动程序我们才可以注册驱动程序完成连接的其他步骤;(2)注册JDBC驱动程序:这一步会导致JVM加载原创 2018-03-08 14:45:31 · 250 阅读 · 0 评论 -
Spark SQL概述
1.Spark SQL概述Spark SQL是Spark的核心组件,发布于Spark1.0.它可以运行SQL/Hive QL语句,包括UDFs,UDAFs和SerDes。它能够通过JDBC连接已经存在的BI工具。能够支持Python,Scala,Java和R语言。Spark SQL它不仅仅有访问或操作SQL的功能,还提供了其他的非常丰富的操作:外部数据源、优化。小结:(1)Spar原创 2018-01-24 11:33:50 · 349 阅读 · 0 评论 -
Spark及其生态圈概述
1.Spark的概述及特点 执行速度快、易用、通用2.Spark的产生背景(1)MapReduce的局限性:代码繁琐、只能支持map和reduce方法、执行效率低下、不适合迭代多次、交互式、流式的处理(2)框架多样化:1)批处理:MapReduce、Hive、Pig;2)流式处理:Storm、Jstorm;3)交互式计算:Impala这些需求都可以用Spark解决3.原创 2018-01-23 21:11:46 · 929 阅读 · 0 评论 -
大数据数据仓库Hive概述
1.Hive产生背景(1)MapReduce的不便性(2)HDFS上的文件缺少Schema2.Hive是什么?(1)由Facebook开源的,最初用于解决海量结构化的日志数据统计问题(2)构建在hadoop之上的数据仓库(3)Hive定义了一种类SQL查询语言:HQL(4)通常用于进行离线数据处理(采用MapReduce)(5)底层支持多种不同的执行引擎(MapRe原创 2018-01-21 14:51:14 · 654 阅读 · 0 评论 -
资源调度框架Yarn
1.Yarn产生背景(1)MapReduce1.X存在的问题,主节点承担风险。(2)资源利用率和运维成本,多种集群无法整合,导致资源利用率和运维成本高。集群内的所有资源管理,全部又YARN完成。2.YARN的架构原创 2018-01-21 11:40:09 · 544 阅读 · 0 评论 -
MapReduce概述
1.MapReduce的起源它源自谷歌的MapReduce论文,发表于2004年12月,Hadoop的MapReduce是Google MapReduce的克隆版。2.MapReduce的特点(1)易于编程。(2)良好的扩展性(3)高容错性(4)海量数据的离线处理3.MapReduce不擅长的场景(1)实时计算(2)流式处理(3)DAG计算4.MapRe原创 2018-01-20 16:17:33 · 617 阅读 · 0 评论 -
分布式文件系统HDFS
1.什么是HDFS?hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。源自于谷歌的GFS论文。发表于2003年,HDFS是GFS的克隆版。2.HDFS的设计目标 (1)非常巨大的分布式文件系统(2)运行在普通的廉价的硬件上(3)易拓展,为用户提供性能不错的文件存储服务3.HDFS架构HDFS是Mas原创 2018-01-18 17:32:45 · 5548 阅读 · 0 评论 -
Hadoop概述
1.什么是hadoop?hadoop是一个分布式系统基础架构,由apache基金会开发,用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。它包括三部分:HDFS,YARN,和MapReduce。HDFS:Hadoop分布式文件系统YARN:任务调度和集群资源管理框架。MapReduce:能够基于YARN并行的处理大规模的数据集。2.狭原创 2018-01-18 15:58:22 · 2318 阅读 · 0 评论