
大数据
文章平均质量分 50
...
sinat_36710456
这个作者很懒,什么都没留下…
展开
-
windows搭建hadoop
一、下载hadoop包csdn下载地址:https://download.youkuaiyun.com/download/sinat_36710456/10744528二、配置HADOOP_HOME.三、重启电脑四、控制台查看 hadoop version注意事项:hadoop安装路径不要有中文、空格...原创 2021-03-05 14:39:11 · 159 阅读 · 0 评论 -
Hive常用函数大全(一)(关系/数学/逻辑/数值/日期/条件/字符串/集合统计/复杂类型)
测试数据 data.txt 文件zhangsa dfsadsa323 new 67.1 2 lisi 543gfd old 43.32 1 wanger 65ghf new 88.88 | 3 liiu fdsfagwe new 66.0 1 qibaqi fds ...转载 2019-02-14 14:33:07 · 411 阅读 · 0 评论 -
Hbase命令
4.1 命令的进退1、hbase提供了一个shell的终端给用户交互hbase shell 2、如果退出执行quit命令4.2 命令名称 命令表达式 查看hbase状态 status 创建表 create '表名','列族名1','列族名2','列族名N' 查看所有表 list 描述表 describe '表名' 判断表...转载 2019-02-25 10:03:27 · 272 阅读 · 0 评论 -
Hbase常用命令
01、启动/停止服务(在Hbase根目录下执行)bin/start-hbase.shbin/stop-hbase.sh02、进入HBase客户端命令操作界面(在Hbase根目录下执行)bin/hbase shell03、查看帮助命令help04、查看当前数据库中有哪些表list05、创建一张表create 'student','info'06...原创 2019-02-22 15:10:28 · 1561 阅读 · 0 评论 -
ssh免密码登录 Linux环境(CentOS+hadoop-2.*)
•环境准备一个namenode节点master,两个datanode节点slave1、slave2 修改主机名(注意):修改主机名用hostname [newname] 修改只是对本次修改有效,重启后失效。用 vi /etc/sysconfig/network 修改永久有效。用root用户修改以下文件 vi /etc/sysconfig/networkNETWO...原创 2017-10-23 17:24:29 · 329 阅读 · 0 评论 -
hadoop安装
SSH免密码登录参照博客(点击进入),本篇博客内容在该篇博客的基础上完成3台机器均需在/etc/profile文件中配置java、hadoop的环境变量进入到hadoop的根目录下,修改以下文件修改hadoop-env.sh文件export JAVA_HOME=/usr/java/jdk1.8.0_131 修改core-site.xml文件<configuration> ...原创 2017-11-02 16:19:40 · 182 阅读 · 0 评论 -
Hbase
前言最近在跟进Hbase的相关工作,由于之前对Hbase并不怎么了解,因此系统地学习了下Hbase,为了加深对Hbase的理解,对相关知识点做了笔记,并在组内进行了Hbase相关技术的分享,由于Hbase涵盖的内容比较多,因此计划分享2期,下面就是针对第一期Hbase技术分享整体而成,第一期的主要内容如下:一、Hbase介绍二、Hbase的Region介绍三、Hbase的写逻辑介绍四、Hb...转载 2018-10-19 11:42:15 · 275 阅读 · 0 评论 -
Spark streaming+Kafka调优
Spark streaming+Kafka的使用中,当数据量较小,很多时候默认配置和使用便能够满足情况,但是当数据量大的时候,就需要进行一定的调整和优化,而这种调整和优化本身也是不同的场景需要不同的配置。合理的批处理时间(batchDuration)几乎所有的Spark Streaming调优文档都会提及批处理时间的调整,在StreamingContext初始化的时候,有一个参数便是批处理...转载 2018-12-24 10:25:15 · 1157 阅读 · 1 评论 -
hive与hbase
最近在学习和整理大数据hadoop的资料时,突然发现一个简单又复杂的问题:hive与hbase是什么关系?怎么区分?平时有接触和使用过hive和hbase,hive的话主要用的是阿里云的odps,hbase用的是hdp平台的开源版本,但是还没有对这两个组件真正的系统的放在一起对比总结过,于是上网查了资料也问了同事,于是在这里再来写点自己的理解。HIVE: 首先说说hive,众所...转载 2018-10-22 09:34:33 · 1042 阅读 · 0 评论 -
常见大数据框架
文件存储:Hadoop HDFS、Tachyon、KFS离线计算:Hadoop MapReduce、Spark流式、实时计算:Storm、Spark Streaming、S4、HeronK-V、NOSQL数据库:HBase、Redis、MongoDB资源管理:YARN、Mesos日志收集:Flume、Scribe、Logstash、Kibana消息系统:Kafka、StormMQ、ZeroMQ、R...原创 2018-10-22 10:43:43 · 1503 阅读 · 0 评论 -
Windows环境下hadoop安装和配置
1.下载Hadoophttps://download.youkuaiyun.com/download/sinat_36710456/10744528 2.解压hadoop-2.7.3.tar.gz 点右键“解压到hadoop-2.7.3”文件夹路径 xxx/xxxx/hadoop-2.7.3复制hadoop-2.7.3文件夹到 d盘 或者 e盘 的根目录 (在这里我安装到了E盘)3.原版的Ha...转载 2018-10-25 18:07:02 · 1997 阅读 · 0 评论 -
CentOS6搭建Cloudera Manager大数据集群
参考:https://blog.youkuaiyun.com/ltliyue/article/details/82734814参考:https://blog.youkuaiyun.com/daerzei/article/details/80645610转载 2018-11-13 10:46:36 · 275 阅读 · 0 评论 -
大数据CDH包下载
CDH的下载地址:http://archive.cloudera.com/cdh5/cdh/5/例:下载 XXX-XXX-cdh5.3.6.tar.gz进入下载页,ctrl+f 搜索 cdh5.3.6.tar.gz,找到对应的tar.gz包下载即可原创 2018-11-15 09:10:01 · 3073 阅读 · 0 评论 -
Hive 元数据表结构详解
元数据是基础,这篇文章值得一读本文介绍Hive元数据库中一些重要的表结构及用途,方便Impala、SparkSQL、Hive等组件访问元数据库的理解。 1、存储Hive版本的元数据表(VERSION)VERSION :该表比较简单,但很重要。 VER_ID SCHEMA_VERSION VERSION_COMMENT ...转载 2019-02-14 11:48:33 · 620 阅读 · 0 评论 -
回归算法
内容1.什么是回归分析?2.我们为什么要使用回归分析?3.回归有哪些类型 ?4.线性回归5.逻辑回归(逻辑回归并不是回归算法,而是分类算法)6.多项式回归7.逐步回归8.岭回归9.Lasso回归10.ElasticNet回归什么是回归分析? 回归分析是研究自变量和因变量之间关系的一种预测模型技术。这些技术应用于预测,时间序列模型和找...转载 2019-04-10 10:13:19 · 658 阅读 · 0 评论 -
groupByKey与reduceByKey
贴一段经典的代码: val conf = new SparkConf().setAppName("GroupAndReduce").setMaster("local") val sc = new SparkContext(conf) val words = Array("one", "two", "two", "three", "three", "three") ...原创 2019-03-23 13:30:52 · 560 阅读 · 0 评论 -
Spark MLlib架构解析(含分类算法、回归算法、聚类算法和协同过滤)
MLlib目前支持4种常见的机器学习问题:分类、回归、聚类和协同过滤MLlib在Spark整个生态系统中的位置如图下图所示Spark MLlib库MLlib算法库的核心内容实验的数据直接使用官方提供的数据: 测试文件路径:spark-1.6.1-bin-hadoop2.6/data/mllib/1) 分类算法 分类算...转载 2019-03-30 10:40:07 · 2164 阅读 · 0 评论 -
键值对RDD(Pair RDD )
1:map函数把一个普通的RDD转化为pair RDDvar lines = sc.parallelize(List("i love you"))val pairs = lines.map(x=>(x,1))pairs.foreach(println)(i love you,1)2:Pai RDDr的转化操作由于pair RDD中包含二元组,所以需要传递函数应当操作...转载 2019-03-23 12:34:17 · 782 阅读 · 0 评论 -
Hadoop—MapReduce练习(数据去重、数据排序、平均成绩、倒排索引)
统计手机流量信息数据去重数据排序平均成绩倒排索引转载 2019-03-07 16:35:31 · 2564 阅读 · 0 评论 -
WordCount
pom WordCountMapper.java WordCountReducer.java WordCountDriver.java POM<properties> <hadoop.version>2.6.0</hadoop.version></properties><dependen...原创 2019-03-04 17:35:25 · 264 阅读 · 0 评论 -
mrunit --- mapereduce测试框架
MRUnit的那些坑1. Maven无法成功导入org.apache.mrunit提示:Unresolved dependency:’org.apache.mrunit:mrunit:jar….’原因:没有确定版本解决方法:在<dependency></dependency>中间的语句块加上一行<classifier>hadoop2&...转载 2019-02-26 17:43:12 · 430 阅读 · 0 评论 -
MRUnit测试WordCount
pom<dependency> <groupId>org.apache.mrunit</groupId> <artifactId>mrunit</artifactId> <version>1.1.0</version> <!--<scope>test&原创 2019-03-05 14:51:52 · 258 阅读 · 0 评论 -
MRUnit的安装和使用
pom<dependency> <groupId>org.apache.mrunit</groupId> <artifactId>mrunit</artifactId> <version>1.1.0</version> <!--<scope>test&转载 2019-03-01 18:00:04 · 442 阅读 · 0 评论 -
MapReduce练习
1) 求各个部门的总工资2) 求各个部门的人数和平均工资3) 求每个部门最早进入公司的员工姓名4) 求各个城市的员工的总工资5) 列出工资比上司高的员工姓名及其工资6) 列出工资比公司平均工资要高的员工姓名及其工资7) 列出名字以J开头的员工姓名及其所属部门名称8) 列出工资最高的头三名员工姓名及其工资9) 将全体员工按照总收入(工资+提成)从高到低排列,要求列出姓名及其总收入10) 如果每位员工只能和他的直接上司,直接下属,同一部门的同事交流,求任何两名员工之间若要进行信息传递所需要经过转载 2019-03-01 17:31:03 · 1760 阅读 · 0 评论 -
Hive常用函数大全(二)(窗口函数、分析函数、增强group)
窗口函数与分析函数应用场景: (1)用于分区排序 (2)动态Group By (3)Top N (4)累计计算 (5)层次查询窗口函数FIRST_VALUE:取分组内排序后,截止到当前行,第一个值 LAST_VALUE: 取分组内排序后,截止到当前行,最后一个值 LEAD(col,n,DEFAULT) :用于统计窗口内往下第n行值。第一个参数为列名,第二个参数为往下第n行(可...转载 2019-02-14 14:52:58 · 305 阅读 · 0 评论 -
Flow Control(流控)
Backpressure(背压)只是解决Flow Control的其中一个方案。就像小学做的那道数学题:一个水池,有一个进水管和一个出水管。如果进水管水流更大,过一段时间水池就会满(溢出)。这就是没有Flow Control导致的结果。而解决Flow Control有几种思路呢?(1)Backpressure,就是消费者需要多少,生产者就生产多少。这有点类似于TCP里的流量控制,接收方根据自己的...转载 2019-01-07 11:10:22 · 12068 阅读 · 18 评论 -
Hive性能优化
1、介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? 数据量大不是问题,数据倾斜是个问题。 jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的。 sum,count,max,min等UDAF,不怕数据倾斜问题,hadoop...转载 2019-02-15 09:20:26 · 328 阅读 · 0 评论 -
RDD算子
1、常用Transformation操作: (1)map(func):返回一个新的RDD,该RDD由每一个输入的元素经过func函数转换后组成。 (2)filter(func):返回一个新的RDD,该RDD由每一个输入的元素经过func函数计算后返回为true的输入元素组成。 (3)sortBy(func,[ascending], [nu...原创 2018-12-28 10:30:35 · 477 阅读 · 0 评论 -
RDD的检查点(checkpoint)机制
RDD的缓存能够在第一次计算完成后,将计算结果保存到内存、本地文件系统或者Tachyon中。通过缓存,Spark避免了RDD上的重复计算,能够极大地提升计算速度。但是,如果缓存丢失了,则需要重新计算。如果计算特别复杂或者计算耗时特别多,那么缓存丢失对于整个Job的影响是不容忽视的。为了避免缓存丢失重新计算带来的开销,Spark又引入了检查点(checkpoint)机制。缓存是在计...原创 2018-12-11 14:35:17 · 1567 阅读 · 0 评论 -
RDD持久化 --- Spark调优
问题:重复创建RDD通常来说,开发一个Spark作业时,首先是创建一个初始的RDD;接着对这个RDD执行某个算子操作,然后得到下一个RDD;以此类推,循环往复,直到计算出最终我们需要的结果。在这个过程中,多个RDD会通过不同的算子操作(比如map、reduce等)串起来,这个“RDD串”,就是RDD lineage,也就是“RDD的血缘关系链”。我们在开发过程中要注意:对于同一份数据,只应...原创 2018-12-11 14:07:06 · 242 阅读 · 0 评论 -
SparkSeesion读写mysql
package cn.xjwimport org.apache.spark.SparkConfimport org.apache.spark.sql.{SaveMode, SparkSession}//实体类case class MY_TEST_DB(val id:Int,val name:String,password:String)object DB { def mai...原创 2018-12-10 16:31:40 · 1609 阅读 · 0 评论 -
RDD分区
目录 一、分区的概念二、为什么要进行分区三、Spark分区原则及方法3.1 本地模式3.2 YARN模式四、RDD分区 代码实操一、分区的概念 分区是RDD内部并行计算的一个计算单元,RDD的数据集在逻辑上被划分为多个分片,每一个分片称为分区,分区的格式决定了并行计算的粒度,而每个分区的数值计算都是在一个任务中进行的,因此任务的个数,也是由RDD(准确来说...转载 2018-12-11 16:00:41 · 1042 阅读 · 0 评论 -
Cannot use map-side combining with array keys
异常:Exception in thread "main" org.apache.spark.SparkException: Cannot use map-side combining with array keys原因:使用 reduceByKey、countByValue 等,需要使用 flatMap,如果用map处理会抛以上异常。flatMap:主要用于spark Streami...原创 2018-12-28 09:28:48 · 2582 阅读 · 0 评论 -
SparkStreaming 自定义Receiver
1、参考官网地址 http://spark.apache.org/docs/latest/streaming-custom-receivers.html2、Spark 自定义Receiver SparkStreaming 能够接收任意类型的流式数据,不单单只是内建的Flume,Kafka,Kinesis,files,sockets等等。当然若要支持此种数据,则需要开发者自...转载 2018-12-21 17:26:42 · 719 阅读 · 0 评论 -
Spark SQL输入输出
1、对于Spark SQL的输入需要使用 sparkSession.read方法 1)、通用模式 sparkSession.read.format("json").load("path") 支持类型:parquet、json、text、csv、orc、jdbc 2)、专业模式 sparkSession.read.json、 csv 直接指定类型。2、对于S...原创 2018-12-21 11:41:07 · 1182 阅读 · 0 评论 -
hive自定义配置文件不生效
说明:只有在/opt/hive-0.13.1-cdh5.3.6/conf 目录下执行/opt/hive-0.13.1-cdh5.3.6/bin/hive命令时才可以连接mysql数据库。在/opt/hive-0.13.1-cdh5.3.6 目录下执行bin/hive命令连接的是默认的derby数据库。总结:即只有在hive的conf目录下执行命令,自定义的配置文件才生效。 具体原因...原创 2018-11-29 11:41:28 · 2109 阅读 · 2 评论 -
hadoop常用端口
hadoop集群的各部分一般都会使用到多个端口,有些是daemon之间进行交互之用,有些是用于RPC访问以及HTTP访问。而随着hadoop周边组件的增多,完全记不住哪个端口对应哪个应用,特收集记录如此,以便查询。这里包含我们使用到的组件:HDFS , YARN , Hbase , Hive, ZooKeeper:一、常用端口组件 节点 默认端口 配置 用途说明...转载 2018-10-26 11:51:36 · 772 阅读 · 0 评论 -
机器学习解决的问题
在我们的业务中,遇到的能用机器学习解决的问题大概这么三类:分类问题:包括 二分类 和 多分类 二分类 就是解决了预测的问题,就像预测一封邮件是否垃圾邮件; 多分类 解决的是文本的分类;聚类问题:从用户搜索过的关键词,对用户进行大概的归类。推荐问题:根据用户的历史浏览和点击行为进行相关推荐。大多数行业,使...原创 2018-10-22 10:35:19 · 716 阅读 · 0 评论 -
spark中的累加器和广播变量
在spark程序中,当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时,Spark操作实际上操作的是这个函数所用变量的一个独立副本。这些变量会被复制到每台机器上,并且这些变量在远程机器上的所有更新都不会传递回驱动程序。通常跨任务的读写变量是低效的,但是,Spark还是为两种常见的使用模式提供了两种有限的共享变量:广播变(broadcast variable)...原创 2018-12-12 11:56:43 · 435 阅读 · 0 评论 -
spark的Driver节点和Executor节点
一、驱动器节点(Driver) Spark的驱动器是执行开发程序中的 main方法的进程。它负责开发人员编写的用来创建SparkContext、创建 RDD,以及进行 RDD 的转化操作和行动操作代码的执行。如果你是用spark shell,那么当你启动 Spark shell的时候,系统后台自启了一个 Spark 驱动器程序,就是在Spark shell 中预加载的一个叫作 sc 的...原创 2018-12-12 13:42:43 · 1990 阅读 · 1 评论