
云计算与大数据
此栏目记录了我在大三期间学习的相关大数据知识,已从个人博客迁移过来,按照我的学习过程进行了相关排序
Ares_song
Write the code. Change the world.
展开
-
(三十)storm的项目实战
这是storm入门记录的最后一章了,大数据内容多而杂,技术也在不断的更新换代,仅此记录学习过程项目概述需求:实时统计景区人流量并通过热力图展示问题:数据如何采集 —>GPS获取区域的经纬度信息 —>手机移动网络信令架构:...原创 2020-06-29 18:22:59 · 553 阅读 · 1 评论 -
(二十九)Storm整合kafka
这里的整合其实是将Storm充当kafka的消费者进行处理数据官方文档教程:http://storm.apache.org/releases/1.1.2/storm-kafka.html一、环境准备在服务器中启动storm、kafka、Zookeeper创建topickafka-topics.sh --create --zookeeper hadoop000:2181 --replication-factor 1 --partitions 1 --topic stormkafka.原创 2020-06-29 13:09:49 · 389 阅读 · 0 评论 -
(二十八)Kafka整合logstash实战
简单介绍下logstash,logstash专门用来收集数据,其功能和flume类似,但功能却比flume强大很多,而且不会丢失数据。其功能结构图如下logstash主要由3个组件组成Input plugin:数据的输入源,比如有文件,数据库等 Filter plugin:对输入的数据进行业务逻辑处理过滤 Output plugin:数据的输出地,比如有hdfs、kafka等1.logstash的搭建logstash的搭建比较简单,下载官方的压缩包后,解压即可使用实验..原创 2020-06-28 19:30:28 · 1526 阅读 · 0 评论 -
(二十七)Kakfa的认识与安装配置
1、Kafka是什么在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算。KAFKA + STORM +REDISApache Kafka是一个开源消息系统,由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。 Kafka最初是由LinkedIn开发,并于2011年初开源。2012年10月从Apache Incubator毕业。该项目的目标是为处理实时数据提供一个统一、高通量、低等待的平台。 Kafka是一个分布式消息队列:生产者、消费原创 2020-06-28 19:28:04 · 390 阅读 · 0 评论 -
(二十六)Storm常见错误及处理方法
1. 发布topologies到远程集群时,出现Nimbus host is not set异常原因是Nimbus没有被正确启动起来,可能是storm.yaml文件没有配置,或者配置有问题。解决方法:打开storm.yaml文件正确配置:nimbus.host: “xxx.xxx.xxx.xxx”,重启nimbus后台程序即可。2. 发布topologies到远程集群时,出现AlreadyAliveException(msg: xxx is already active)异常原因是提.原创 2020-06-27 14:39:37 · 1398 阅读 · 0 评论 -
(二十五)Storm本地编程案例
此编程在windows下的idea编译器,运用maven项目此时还没有搭建Storm集群,只是简单地本地测试pom文件<dependency> <groupId>org.apache.storm</groupId> <artifactId>storm-core</artifactId> <version>1.2.2</version></dependency>案例一..原创 2020-06-27 14:27:34 · 353 阅读 · 0 评论 -
(二十四)Storm的集群搭建过程
前提:搭建Storm集群前,确保系统中有Zookeeper一、storm的下载安装storm的下载地址:http://storm.apache.org/downloads.html这里我下载的是1.2.2版本然后将下载的storm解压缩 和改名tar -zxvf apache-storm-1.2.2.tar.gz -C /usr/local/mv apache-storm-1.2.2/ storm二、修改配置文件vim storm-env.sh 配置JAVA_HO...原创 2020-06-26 23:28:14 · 301 阅读 · 0 评论 -
关于云计算的个人理解
一、什么是云计算? 学云计算?,自然要明白云计算是什么,但是对于云计算,可谓一千个人眼里就有一千种云计算的定义。他就像盲人摸象一样,不同的人对它有着不同的理解。现阶段广为接受的是美国国家标准及技术研究所(NIST)的定义:云计算是一种模型,能以按需方式,通过网络,方便的访问云系统的可配置计算资源共享池(比如:网络,服务器,存储,应用程序和服务) 。同时它以最少的管理开销及最少的与供应商的交互,迅速配置提供或释放资源。当然,定义是死的,很多同学可能看...原创 2020-06-24 13:10:30 · 4158 阅读 · 0 评论 -
(二十三)初识Storm
1、离线计算是什么?离线计算:批量获取数据、批量传输数据、周期性批量计算数据、数据展示代表技术:Sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、Hive批量计算数据、***任务调度1,hivesql2、调度平台3、Hadoop集群运维4、数据清洗(脚本语言)5、元数据管理6、数据稽查7、数据仓库模型架构2、流式计算是什么流式计算:数据实时产生、数据实时传输、数据实时计算、实时展示代表技术:Flume实时获取数据、Kafka原创 2020-06-24 12:48:39 · 354 阅读 · 0 评论 -
(二十二)日志采集框架Flume的介绍与案例
前言在一个完整的大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统,而这些辅助工具在hadoop生态体系中都有便捷的开源框架如图所示:1.Flume介绍1.1 概述Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 Flume可以采集文件,socket数据包等各种形式源数据,又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中原创 2020-06-24 01:12:10 · 754 阅读 · 0 评论 -
(二十一)MR的处理结果通过Java API导入Hbase
环境准备在上一篇的基础上,还需要导入Hbase的相关jar包,找到Hbase下载目录,lib中的jar包导入环境中代码编写package Hbase;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.client.Mutation;import org.apache.hado.原创 2020-06-23 18:18:36 · 348 阅读 · 0 评论 -
(二十)【搜狗搜索日志分析】MR的操作
上一篇博客主要写了如何用Hive操作日志,这一篇主要通过MR程序来进行处理由于在win中操作,更改目录麻烦,所以本次MR操作在虚拟机的eclipse中环境准备在虚拟机中就不使用Maven工程,需要将本地的包都导入到项目中找到你下载的hadoop,将share中的以下包内容导入到你的项目中进入所选的目录,将lib中的所有包,以及框中的包导入(四个目录同理)导入后,可以开始编写MR程序了编写程序以下IP是本地Hadoop环境的ip,如需使用以下代码,自行更..原创 2020-06-23 18:18:04 · 787 阅读 · 0 评论 -
(十九)hadoop的阶段性项目练习【搜狗搜索日志分析】
一、实战问题前言:本课程设计数据来源:搜狗五百万数据。1.数据说明:搜狗五百万数据,是经过处理后的搜狗搜索引擎生产数据,具有真实性,大数据性,能够较好的满足分布式计算应用开发课程设计的数据要求。2.搜狗数据的格式:访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL。其中,用户ID是根据用户使浏览器访问搜索引擎时的Cookie信息自动赋值,即同一次使用浏览器输入的不同查询对应一个用户ID。操作要求:1.将原始数据加载到HDFS.原创 2020-06-23 18:17:36 · 2016 阅读 · 0 评论 -
(十八)Hbase的认识与安装部署
1、Hbase的认识1.1.什么是hbaseHBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBASE的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据。HBASE是Google Bigtable的开源实现,但是也有很多不同之处。比如:Google Bigtable利用GFS作为其文件存储系统,HBASE利用Hadoop HDF...原创 2020-06-23 17:59:44 · 404 阅读 · 0 评论 -
(十七)Sqoop的安装配置与基本操作
Sqoop是用来实现结构型数据(如关系数据库)和Hadoop之间进行数据迁移的工具。它充分利用了MapReduce的并行特点以批处理的方式加快数据的传输,同时也借助MapReduce实现了容错。一、sqoop下载下载地址http://mirrors.shu.edu.cn/apache/sqoop/下载sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz二、解压配置环境变量将下载的sqoop传到linux中解压,在.bashrc中配置环境变量三、修改...原创 2020-06-22 20:29:07 · 786 阅读 · 0 评论 -
(十六)Hive的认识以及安装部署与简单操作
一、Hive的介绍1、什么是HiveHive 是建立在 Hadoop 上的数据仓库基础构架。 它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 QL ,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的...原创 2020-06-22 19:44:56 · 658 阅读 · 0 评论 -
(十五)Zookeeper的介绍与分布式安装配置
一、Zookeeper的介绍1.1、什么是ZookeeperZookeeper 是 Google 的 Chubby一个开源的实现,是 Hadoop 的分布式协调服务,它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等1.2、为什么使用Zookeeper大部分分布式应用需要一个主控、协调器或控制器来管理物理分布的子进程(如资源、任务分配等) 目前,大部分应用需要开发私有的协调程序,缺乏一个通用的机制 协调程序的反复编写浪费,且难以形成通用、伸缩性好的协调器原创 2020-06-22 19:21:02 · 271 阅读 · 0 评论 -
(十四)Hadoop核心组件之Yarn的认识
一、 YARN概述Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而mapreduce等运算程序则相当于运行于操作系统之上的应用程序。二、YARN的重要概念yarn并不清楚用户提交的程序的运行机制 yarn只提供运算资源的调度(用户程序向yarn申请资源,yarn就负责分配资源) yarn中的主管角色叫ResourceManager yarn中具体提供运算资源的角色叫NodeManager 这样一来,yarn其实就与运行的用户程序完全解耦,就原创 2020-06-22 00:50:12 · 323 阅读 · 0 评论 -
(十三)MapReduce的其他案例及总结
除了WordCount,这里再介绍两个案例,Combiner和Partitioner。一、MapReduce案例之Combiner1、关于combiner1、每一个map可能会产生大量的输出,combiner的作用就是在map端对输出先做一次合并,以减少传输到reducer的数据量。2、combiner最基本是实现本地key的归并,combiner具有类似本地的reduce功能。3、如果不用combiner,那么,所有的结果都是reduce完成,效率会相对低下。使用combiner,.原创 2020-06-22 00:45:58 · 1087 阅读 · 0 评论 -
(十二)使用Eclipse编译运行WordCount程序
因为eclipse有Hadoop-Eclipse-Plugin插件,这里介绍Eclipse 上编译和运行 MapReduce 程序一、安装配置Hadoop-Eclipse-Plugin1、要在 Eclipse 上编译和运行 MapReduce 程序,需要安装 hadoop-eclipse-plugin。 下载地址:可下载 Github 上的hadoop2x-eclipse-plugin2、将下载的hadoop-eclipse-plugin-2.6.5.jar文件放到eclips...原创 2020-06-21 21:58:21 · 743 阅读 · 0 评论 -
(十一)MapReduce案例之WordCount(2)
上一篇文章写了通过jar包的方式运行wordcount程序,这一篇文章通过在本地windows中进行运行wordcount运行环境:windows、hadoop2.6.5程序:wordcount(maven项目)编译器:idea贴出pom文件如下: <dependency> <groupId>org.apache.hadoop</groupId> <artifactId&g...原创 2020-06-21 21:51:47 · 338 阅读 · 0 评论 -
(十)MapReduce案例之WordCount(1)
这里通过将代码打包成jar的方式,传输到linux中来运行wordcount程序1、需求从大量(比如T级别)文本文件中,统计出每一个单词出现的总次数2、mapreduce实现思路Map阶段:从HDFS的源数据文件中逐行读取数据 将每一行数据切分出单词 为每一个单词构造一个键值对(单词,1) 将键值对发送给reduceReduce阶段:接收map阶段输出的单词键值对 将相同单词的键值对汇聚成一组 对每一组,遍历...原创 2020-06-21 21:40:55 · 264 阅读 · 0 评论 -
(九)关于MapReduce的认识
Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架MapReduce将计算过程分为两个阶段:Map和Reduce。1)Map阶段并行处理输入数据2)Reduce阶段对Map结果进行汇总上图简单的阐明了map和reduce的两个过程或者作用,虽然不够严谨,但是足以提供一个大概的认知,map过程是一个蔬菜到制成食物前的准备工作,reduce将准备好的材料合并进而制作出食物的过程一...原创 2020-06-21 16:30:18 · 317 阅读 · 0 评论 -
(五)IntelliJ IDEA操作HDFS
一、导入jar包1、如果使用maven工程创建项目,在pom文件中加入HDFS依赖(跟hadoop版本一致)第一次下载会有很长时间,耐心等待jar包的下载。 <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>2.6.5</..原创 2020-06-21 16:06:00 · 1800 阅读 · 0 评论 -
(四)HDFS 的认识和 shell 操作
1. HDFS前言 设计思想 分而治之:将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析;在大数据系统中作用: 为各类分布式运算框架(如:mapreduce,spark,tez,……)提供数据存储服务重点概念:文件切块,副本存放,元数据2. HDFS的概念和特性首先,它是一个文件系统,用于存储文件,通过统一的命名空间——目录树来定位文件其次,它是分布式...原创 2020-06-21 16:04:25 · 307 阅读 · 0 评论 -
(三)分布式文件系统的介绍
常见的分布式文件系统有,GFS、HDFS、Lustre 、Ceph 、GridFS 、mogileFS、TFS、FastDFS等。各自适用于不同的领域。它们都不是系统级的分布式文件系统,而是应用级的分布式文件存储服务。Google学术论文,这是众多分布式文件系统的起源Google File System(大规模分散文件系统)MapReduce (大规模分散FrameWork)BigTable(大规模分散数据库)Chubby(分散锁服务)一般你搜索Google_三大论文...原创 2020-06-21 15:59:15 · 611 阅读 · 1 评论 -
(二)关于Hadoop分布式环境的搭建过程
本笔记是个人参照林子雨老师教学文档进行撰写,详细请看厦门大学数据库实验室观看个人搭建hadoop平台实用的环境:Ubuntu 14.04 64位 *3、JDK1.8、Hadoop 2.6.5 (apache)一、Hadoop安装前准备1、设置root用户第一次需要设置root用户密码root用户开机启动在文件中添加下图红框内容:user-session=ubuntugreeter-show-manual-login=trueall-guest=f..原创 2020-06-21 15:54:54 · 750 阅读 · 0 评论 -
(一)关于Hadoop的认识
一、什么是HADOOPHADOOP是apache旗下的一套开源软件平台 HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理 HADOOP的核心组件有 HDFS(分布式文件系统) YARN(运算资源调度系统) MAPREDUCE(分布式运算编程框架) 广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP生态圈二、HADOOP产生背景HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、原创 2020-06-21 15:45:57 · 650 阅读 · 0 评论 -
(前言)我的大数据学习之旅
一、大数据运维之Linux基础打好Linux基础,以便更好地学习Hadoop,hbase,NoSQL,Spark,Storm,docker,openstack等。因为企业中的项目基本上都是使用Linux环境下搭建或部署的。1)Linux系统概述2)系统安装及相关配置 3)Linux网络基础 4)OpenSSH实现网络安全连接 5)vi文本编辑器6)用户和用户组管理7)磁盘管理 8)Li...原创 2020-03-18 21:52:30 · 656 阅读 · 0 评论 -
(六)云服务器搭建Hadoop集群
使用两个阿里云和一个腾讯云搭建Hadoop集群方法和 hadoop分布式集群搭建 一样但是同样的步骤会出现下面的错误NameNode和ResourceManager、SecondrryNameNode三个进程都没有开启主要原因是hosts中三个IP网段不一样导致的问题解决方法很简单:每个云服务器会有1个公网ip和1个私网ip,在配置hosts映射时,对于对应的服务器要填私网...原创 2018-10-27 19:41:06 · 2298 阅读 · 0 评论 -
(七)云服务器搭建集群遇到挖矿木马
本笔记是个人参照林子雨老师教学文档进行撰写,详细请看厦门大学数据库实验室观看个人搭建hadoop平台实用的环境:Ubuntu 14.04 64位 *3、JDK1.8、Hadoop 2.6.5 (apache)一、Hadoop安装前准备1、设置root用户第一次需要设置root用户密码root用户开机启动在文件中添加下图红框内容:user-session=u...原创 2018-10-17 17:47:39 · 688 阅读 · 0 评论