
大数据
七个馒头
这个作者很懒,什么都没留下…
展开
-
linux系统下hadoop伪分布式集群搭建之安装虚拟机
首先你得有个虚拟机,并且安装好了任意的linux系统 本文讲解的是在CentOS下的安装废话不多说,我们先来----------------------------安装虚拟机首先在VMware主页面点击创建新的虚拟机然后进入选择一个典型点击下一步点击稍后安装操作系统,点击下一步,在这里插入图片描述这时候客户机操作系统选择Linux版本号选择你所要安装的CentOS的版本,我这里选择...原创 2019-06-12 16:24:59 · 296 阅读 · 0 评论 -
MapReduce运行reduce端无法接收数据
总之这是一个很low的报错,写出来都丢人,但是做个记录自定义类的时候,千万记得写构造方法,有参无参必须写!!!重要的事情说三遍有参无参必须写!!!有参无参必须写!!!有参无参必须写!!!如果没有自定义类,那么接下来的问题,就是job里面的输入输出类型设置错误,血的教训,铭记仅此!!!...原创 2019-06-27 09:55:31 · 513 阅读 · 0 评论 -
Hadoop集群时间同步,超级简单版本
首先本人在网上看了很多方法,大部分都不适合初学菜鸟进行时间同步,下面我说的这个超级简单版本,只适用于学习自己一个人的电脑上虚拟机的操作打开需要修改时间的虚拟机,xshell连接选择瓷砖排列方便查看命令,点击工具--------发送键入到所有会话重点来啦设置时区为东八区tzselect输入这个命令,然后选择::::5->9->1->1可能...原创 2019-06-27 10:09:52 · 403 阅读 · 0 评论 -
学习spark--(4)--scala(4)
类、方法、对象、继承、特质1. 类类的定义/*** 在Scala中,类并不用声明为public类型的。* Scala源文件中可以包含多个类,所有这些类都具有共有可见性。*/class Person { //用val修饰的变量是可读属性,有getter但没有setter(相当与Java中用final修饰的变量) val id="9527" //用var修饰的变量...原创 2019-07-09 11:36:45 · 162 阅读 · 0 评论 -
学习spark--(1)--scala(1)
1.为什么要学习scala?spark底层时用scala实现的,想要学号spark,必须学会scala这门语言语言有自己的特点,无论是在编程效率还是执行速度都要优于java2.scala语言的介绍scala时一门多范式的编程语言,及时面向对象也是函数式编程函数式编程:所有的变量全部为一个对象,把函数当成编程什么是多范式?多范式:多种形式的编程,常见的有过程是式,函数式...原创 2019-07-05 14:58:45 · 160 阅读 · 0 评论 -
学习spark--(5)--scala(5)
1. 模式匹配和样例类Scala有一个十分强大的模式匹配机制,可以应用到很多场合:如switch语句、类型检查等。并且Scala还提供了样例类,对模式匹配进行了优化,可以快速进行匹配。--1--匹配字符串import scala.util.Randomobject CaseDemo01 extends App{ val arr = Array("hadoop", "zooke...原创 2019-07-15 11:02:34 · 129 阅读 · 0 评论 -
学习Spark--(6)--高阶函数
Scala高级特性1. 高阶函数--1--概念Scala混合了面向对象和函数式的特性,我们通常将可以作为参数传递到方法中的表达式叫做函数。在函数式编程语言中,函数是“头等公民”,把函数作为参数或者是返回值是函数叫高阶函数。高阶函数包含:作为值的函数、匿名函数、闭包、柯里化等等。--2-- 作为值的函数可以像任何其他数据类型一样被传递和操作的函数,每当你想要给算法传入具体动作...原创 2019-07-15 12:34:43 · 1501 阅读 · 0 评论 -
Scala中函数和方法的区别
1. 方法不能作为单独的表达式而存在,但是函数可以2. 函数必须有参数列表,就算是空的也需要写上,方法可以没有val sayName=()=>{ println("asdfasdf")}def eat:Unit={ println("cjeojaff")}3. 方法不是值,函数是值,不能把方法赋值给变量val//2.方法的定义(如果强行复制一个变量,...原创 2019-07-15 17:33:02 · 243 阅读 · 1 评论 -
Spark入门
Spark概述什么是SparkSpark是一种快速、通用、可扩展的大数据分析引。基于内存计算。到目前为止,已经发展成为一个完善的生态系统,其中包含SparkSQL、Spark Streaming、GraphX、MLlib等组件。为什么要学习SparkSpark类似于MapReduce,基于MapReduce实现分布式计算,拥有MapReduce拥有的所有优点,并且Spark中的Jo...原创 2019-07-15 19:56:57 · 239 阅读 · 0 评论 -
Exception in thread "main" java.lang.IllegalArgumentException: java.net.URISyntaxException: Expected
今天来更新一个错误,是spark集群运行时候报的错误,图如下:网上搜了好多方法不管用,在这里我更新下我的做法,开启hive,将与其同名的表删掉。开心不,就这么简单,我觉得可能是涉及到了权限的问题,或者编码格式的问题。望采纳!!!...原创 2019-07-17 16:21:08 · 1359 阅读 · 0 评论 -
Flink运行自带SocketWindowWordCount.jar报错Job failed 和 Connection refused (Connection refused)
第一个原因:没有nc -l 9000的情况下直接执行了这句话./bin/flink run examples/streaming/SocketWindowWordCount.jar --port 9000第二个原因:端口号最好换一个,如果配置了连接hdfs的话第三个原因:其实因为你配置了hdfs环境的原因,仔细想想,你是不是修改了vim conf/flink-c...原创 2019-08-20 13:04:34 · 5794 阅读 · 0 评论 -
学习spark--(3)--scala(3)
1.元组1)概念 元祖是scala中一个非常有用的容器对象,用于存放不同类型的数据元素,当然他是不可变的 关键字:不同类型 长度不可变2)元组的创建demo:val tuple=(1,"abc",false)val tuple1 = new Tuple2(1,2)3)元组的操作 元组是通过下划线+下标索...原创 2019-07-07 21:07:01 · 163 阅读 · 0 评论 -
学习spark--(2)--scala(2)
1. 隐式转换1)当scala程序在进行赋值或者运算的时候,精度小的类型。当自动转换为精度大的类型,这个就是自动类型转换(隐式转换)//char -> Intvar a: Int = 'a'//int -> doublevar d: Double=1002)细节注意:-1-当有很多种类型混合运算时,系统先将所有的类型,转换成精度最大的那种数据类型,然后再进行...原创 2019-07-07 20:27:04 · 129 阅读 · 0 评论 -
Hadoop-HDFS分布式集群搭建
HDFS伪分布式搭建步骤1、上传文件 xshell 使用命令rz-----yum install lrzsz -y2、解压 tar -zxvf jdk...3、配置环境变量 vim /etc/profile 进入,找到export开头的地方加入下面代码 export JAVA_HOME=/opt/software/jdk1.8.0_1...原创 2019-06-12 21:12:08 · 147 阅读 · 0 评论 -
eclipse搭建伪分布式集群下使用环境
eclipse搭建伪分布式集群下使用环境制作所需工具,一个伪分布式集群(虚拟机连接)一个eclipse开始搭建启动虚拟机上面的伪分布式集群,切换到hadoop 的sbin目录下面。输入启动命令 ./start-dfs.sh打开谷歌,测试集群是否启动成功 ***.***.***.***(集群主节点地址):50070,并且查看集群节点存活量(live nodes)...原创 2019-06-13 15:54:17 · 195 阅读 · 0 评论 -
大数据特点——5V
大数据5V特点我拆分理解了下,可以用五个字来概括一、Volume:大 数据的采集,计算,存储量都非常的庞大。二、Variety:多 种类和来源多样化。种类有:结构化、半结构化和非结构化数据等,常见的来源有:网络日志、音频、视频、图片等等。三、Value:值 数据价值密度相对较低,犹如浪里淘金,百炼成钢般才能获取到大量信息中的部分有价值的信息四、Velocity:快 数据...原创 2019-06-14 10:10:28 · 41420 阅读 · 0 评论 -
我的第一个WordCount项目
WordCount中,统计单词数量1.创建一个MapReduce项目2.导入相应的jar3.新建一个包,包下直接创建Mapper类4.创建Reduce类5.创建一个普通类,用于提交任务,此时,项目里面有 *三个线程*6.因为权限问题,这里导入了一个包,直接沾到项目src目录下,如果jar包需要请在评论区联系7.因为项目里面的东西都是自动生成,对于一些方面我做了稍加修改,下面是我的代码,仅供参考...原创 2019-06-14 22:08:07 · 303 阅读 · 0 评论 -
Hive内部运行机制
首先介绍下hive的概念 hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduc...原创 2019-06-19 20:25:23 · 1010 阅读 · 0 评论 -
大数据学习
自给定义:短时间快速产生大量多种多样的有价值的信息如今数据越来越多,为了解决数据量过大的问题,垂直扩展机制,和横向扩展机制相继进入视线,垂直扩展指的是再一台服务器上尽可能的扩大内存,而横向扩展指的是将许多个计算机联系起来,例如下图: 讲完这些,就不得不说一说hadoop生态圈和spark生态圈了,hadoop包括以下模块 Hadoop Comm...原创 2019-06-10 20:44:12 · 199 阅读 · 0 评论 -
HDFS入门---------命令大全
文章目录首先------启动 Hadoop 集群其次------处于hadoop的bin目录下面0.help1.ls2.lsr3.mkdir4.-moveFromLocal5.-appendToFile6.mv7.cat8.chgrp9.chown10.chmod11.copyFromLocal | put12.copyToLocal | get13.cp14.du15.dus16.expunge...翻译 2019-06-16 16:37:11 · 319 阅读 · 0 评论 -
Hive表类型及其操作
1、创建数据库并且使用create database demo; use demo;2、内部表的创建create table table_1( id int, name varchar(8));3、外部表的创建create external table table_2( id int, name varchar(8)...原创 2019-06-20 21:42:50 · 519 阅读 · 0 评论 -
MapReduce拆分理解
文章目录1.input(输入) --- 给定一个文档,其中有这样几行数据2.split(切片) --- 将给定的文档按行切分成key-value键值对3.map(映射) --- 将拆分之后的键值对转换成新的key-value键值对(这里用空格间隔,所以拆分的时候也用空格),4.shuffle(派发) --- 将相同的key放到一起5.缩减(reduce) --- 把相同key的value加到一起6...原创 2019-06-17 17:05:05 · 1810 阅读 · 0 评论 -
SecondaryNameNode学习
SecondaryNamenode------持久化参考下这个网址,很不错的,点击即可NN掌握一批元数据 ----描述数据的数据 -----内存里ps:硬盘与内存的区别 硬盘,内存大,便宜,但是慢 内存,内存小,贵,但是快,为了保证元数据的安全,----将内存中的数据存放到磁盘中,举个例子,SNN的作用:当我们的集团因断电等特殊原因产生问题的时候,问题解决,重新开机,...原创 2019-06-11 20:31:43 · 192 阅读 · 0 评论 -
hive UDF jdbc使用方法
一对一的UDF使用,java代码块:public class Tests extends UDF{ //实现大写转小写的功能 public String evaluate(String input){ if (input == null){ return null; } return input.toLowe...原创 2019-06-22 08:40:41 · 739 阅读 · 0 评论 -
org.apache.flume.conf.ConfigurationException: brokerList must contain at least one Kafka broker
今天来更新一个错误,是flume消息发送到kafka时候出现的出现这个错误的是因为flume版本的与conf配置文件语句的不兼容导致的查看flume版本号很简单...原创 2019-08-15 16:42:26 · 429 阅读 · 0 评论