
Hadoop
PeixinYe
以前没开通博客,记录知识不方便,现在开通了博客,用以记录以前所学知识,晒一晒,欢迎大家来讨论学习(*^▽^*)~~~~~~
展开
-
Hive配置参数说明和配置注意事项
hive.metastore.warehouse.dir该参数指定了 Hive 的数据存储目录,默认位置在 HDFS 上面的 /user/hive/warehouse 路径下。hive.exec.scratchdir该参数指定了 Hive 的数据临时文件目录,默认位置为 HDFS 上面的 /tmp/hive 路径下。更多配置参数说明:https://my.oschina.net/HIJAY/blo...原创 2018-06-06 13:14:37 · 1163 阅读 · 0 评论 -
关于 Call From master/172.27.0.5 to master:8020 failed on connection exception: 问题解决
一般来说是你的hosts文件没设置好,以前有篇说过了。。。但是!如果你确定hosts文件设置好了,却还有这个问题,这可能是你环境配置时的PATH=HADOOPXXXXX等的路径没设置好!!比较保险的办法就是:删除再新建你core-site.xml里设置路径的tmp文件夹、dfs文件夹、data文件夹、name文件夹、hadoop根目录logs文件夹,再hdfs namenode -format就这...原创 2018-04-23 13:21:26 · 12842 阅读 · 0 评论 -
hadoop配置注意事项OR总结
有关IP有3个文件:/etc/hosts/etc/sysconfig/network/etc/sysconfig/network-scripts/ifcfg-ethX有关hadoop环境配置的文件:/etc/profile(我是配置这个)~/.bashrc~/.bash_profilehadoop文件夹内需要配置的环境文件:./hadoop-2.7.5/etc/hadoop/hadoop-env....原创 2018-04-23 13:14:27 · 352 阅读 · 0 评论 -
关于:8020 failed on connection exception: java.net.ConnectException: Connection refused的解决方法(二)
hadoop环境配置别忘了加PATH。。。。。。。。。经典环境配置如下:(/etc/profile)export HADOOP_HOME=/usr/local/hadoopexport HADOOP_MAPRED_HOME=$HADOOP_HOMEexport HADOOP_COMMON_HOME=$HADOOP_HOMEexport HADOOP_HDFS_HOME=$HADOOP_HOMEex...原创 2018-04-23 13:02:35 · 2794 阅读 · 0 评论 -
K-means聚类算法
监督:简单的说就是利用过去已经做过的题来求解未知的题,若能解决则称为有监督;(用标签和特征标识)K-means聚类和分类的区别:有监督和无监督;K-means核心思想:1、确定K值;2、计算样本与质心距离(欧式距离),重新计算质心;3、重复计算,直到质心不再改变;簇的类型:明显分离的可以看到(a)中不同组中任意两点之间的距离都大于组内任意两点之间的距离,明显分离的簇不一定是球形的,可以具有任意的形...转载 2018-04-06 08:39:26 · 418 阅读 · 0 评论 -
关联规则-频繁模式挖掘
基本概念:二院表示:每一行对应一个事务,每一列对应一个项,项用二元变量表示;项集:包括0个或多个项的集合,包含K个称为K-项集;事物的宽度:事务中项的个数;关联规则三个指标:Support(支持度):表示A和B的事务所占所有事务的比例,Support=P(A&B);Confidence(可信度):表示包含A的事务中同时包含B的比例,Confidence=P(A&B)/P(A);LI...原创 2018-04-03 22:20:06 · 650 阅读 · 0 评论 -
Mahout特点
Mahout的主要目的是实现可伸缩的机器学习算法,核心库中某些非分布式算法也具有很好的性能;目标是帮助开发人员快速建立具有机器智能的应用程序,目前比较成熟和活跃的主要包括:1、频繁模式挖掘2、聚类算法3、分类器4、推荐算法5、频繁子项挖掘...原创 2018-04-03 21:44:00 · 1574 阅读 · 0 评论 -
Pregel体系结构
在Pregel计算框架中,一个大型图会被划分成许多个分区,每个分区都包含了一部分顶点以及以其为起点的边一个顶点应该被分配到哪个分区上,是由一个函数决定的,系统默认函数为hash(ID) mod N,其中,N为所有分区总数,ID是这个顶点的标识符;当然,用户也可以自己定义这个函数这样,无论在哪台机器上,都可以简单根据顶点ID判断出该顶点属于哪个分区,即使该顶点可能已经不存在了容错性:Pregel采用...原创 2018-03-26 20:35:43 · 2235 阅读 · 0 评论 -
图计算其他补充------学习笔记
消息传递:顶点之间的通讯是借助于消息传递机制来实现的,每条消息都包含了消息值和需要到达的目标顶点ID。用户可以通过Vertex类的模板参数来设定消息值的数据类型在一个超步S中,一个顶点可以发送任意数量的消息,这些消息将在下一个超步(S+1)中被其他顶点接收一个顶点V通过与之关联的出射边向外发送消息,并且,消息要到达的目标顶点并不一定是与顶点V相邻的顶点,一个消息可以连续经过多条连通的边到达某个与顶...原创 2018-03-26 20:28:43 · 619 阅读 · 0 评论 -
Pregel图计算模型--------学习笔记
Pregel计算模型以有向图作为输入有向图的每个顶点都有一个String类型的顶点ID每个顶点都有一个可修改的用户自定义值与之关联每条有向边都和其源顶点关联,并记录了其目标顶点ID边上有一个可修改的用户自定义值与之关联边上有一个可修改的用户自定义值String类型的顶点ID可修改的用户自定义值在每个超步S中,图中的所有顶点都会并行执行相同的用户自定义函数每个顶点可以接收前一个超步(S-1)中发送给...原创 2018-03-26 20:23:41 · 2744 阅读 · 0 评论 -
图计算-----学习笔记
特点:数据关联性强;常常表现出比较差的内存访问局部性针对单个顶点的处理工作过少计算过程中伴随着并行度的改变大型图计算主要包括两种:基于遍历算法的、实时的图数据库,如Neo4j、OrientDB、DEX和 Infinite Graph;以图顶点为中心的、基于消息传递批处理的并行引擎,如GoldenOrb、Giraph、Pregel和Hama,这些图处理软件主要是基于BSP模型实现的并行图处理系统;B...原创 2018-03-26 20:18:12 · 1376 阅读 · 0 评论 -
Linux 用户创建、赋权、修改主机名
创建用户:adduser xxxxxx(用户名)然后设置密码:passwd xxxxx(用户名)赋sudo权限:用执行:visudo或vim /etc/sudoers找到root,在其下加入用户名+ALL学上面写即可。修改主机名:用这个最好: hostnamectl set-hostname 新主机名用hostname命令可以临时修改机器名,但机器重新启动之后就会恢复原来的值。#hostna...原创 2018-04-13 14:50:59 · 576 阅读 · 0 评论 -
Hadoop linux下安装JAVA环境
java_home 是否配好:echo $JAVA_HOMEhadoop是否安装检查:./bin/hadoop version步骤:1、到官网下载linux64位(或32位,看电脑系统)下载JDK包;2、tar -zxf xxxxxxxx.tar.gz 解压;3、到 vim /etc/profile文件最后加入 export JAVA_HOME=/usr/lib/jvm/(javaJDK包) e...原创 2018-04-13 13:47:27 · 1242 阅读 · 0 评论 -
HBASE安装与配置
这个比较简单,配置如下:hbase/conf/hbase-site.xml<property> <name>hbase.rootdir</name> <value>hdfs://master:9000/hbase</value> </property> <property>原创 2018-06-06 13:12:51 · 455 阅读 · 0 评论 -
Spark在Hadoop用户下启动
问题描述:Hadoop用户下启动Spark时,Worker和Mater进程在root用户下启动而不在Hadoop用户下启动。解决方案:修改Spark所属权限:chown -R hadoop:hadoop ./spark原创 2018-06-06 11:10:05 · 1132 阅读 · 0 评论 -
hadoop mahout FP-Growth超市数据集
http://fimi.ua.ac.be/data/像我这么不收C币,无私奉献的人不多了。快来感谢我吧。。原创 2018-05-11 13:26:21 · 2099 阅读 · 1 评论 -
关于运行PI和wordcount的map100%,reduce0%问题解决方法
可能的主要原因出在etc/hosts文件中的master或者hadoop/etc/hadoop/yarn-site.xml中的指定master上,或者两者冲突,我是通过去除yarn-site.xml文件中的指定master配置来解决的。上图:...原创 2018-05-03 23:35:43 · 1661 阅读 · 0 评论 -
关于:8020 failed on connection exception: java.net.ConnectException: Connection refused的解决方法
由于腾讯云自带的hosts文件(/etc/hosts)内有多余的其他地址,需要将其他多余自带的都删掉,只留下自己配置的,这样OK;上图:(这是完成后的,像这样就行了)...原创 2018-04-20 20:26:00 · 4081 阅读 · 0 评论 -
hadoop eclipse项目构建参考
有这里两篇足够了,自己瞎搞好久。。最好看一下。。http://www.powerxing.com/hadoop-build-project-using-eclipse/https://blog.youkuaiyun.com/clerk0324/article/details/52400532转载 2018-05-02 16:48:45 · 226 阅读 · 0 评论 -
安装SSH注意事项
要使authorized_keys生效必须满足一下两个条件:.ssh文件夹权限为700;authorized_keys文件的权限为600;!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!不是权限越多越好,只能是这个!!!!卡了好几天也是醉了。。...原创 2018-04-20 13:06:11 · 281 阅读 · 0 评论 -
Apriori算法实现过程
支持度、置信度、提升度就不再重复说了;不懂得参考这个:https://jingyan.baidu.com/article/9113f81b62b9c02b3214c72e.html两大定律:(大概这个意思,自己写的)1、如果一个项集是频繁项集,那么它的所有子集也是频繁项集;2、如果一个项集不是频繁项集,那么它的所有超集都不是频繁项集;上图:实现步骤:(恩 ,简洁明了)...原创 2018-05-01 12:10:04 · 4159 阅读 · 1 评论 -
关于运行PI和wordcount的map0%,reduce0%问题解决方法
记得:没金刚钻别揽瓷器活!当然怎么说呢。。4个site.xml文件配置别搞的太高大上,用默认的就好了,这样就不会导致你机器尤其是master节点卡在map0%和reduce0%了。。。。为了明白这问题,一搞这问题又是一天啊。。。我的电脑配置:3台腾讯云:1核2G,50G;以下为我的4个site文件配置:mapred-site.xml<configuration><property...原创 2018-04-23 17:29:54 · 3115 阅读 · 1 评论 -
hadoop安装和SSH
hadoop安装:1、到官网下载hadoop-x.x.x.tar.gz,不要下成src的了,wget (http://网址);2、tar -zxf 源目录 -C 解压目录3、在local目录下赋权:chown -R hadoop:hadoop ./hadoop4、检查是否安装好:./bin/hadoop versionSSH安装:下载更新:yum install openssh-server;登入...原创 2018-04-13 16:34:38 · 2355 阅读 · 0 评论 -
构建HBase二级索引和工具----学习笔记
HBase只针对行键索引,访问HBase表中的行只用三种方式;(原生产品中)行键访问;行键区间访问;全表扫描;其他产品:Hindex二级索引HBase+RedisHBase+solrCoprocessor构建二级索引;Coprocessor提供了两个实现:endpoint和observer,endpoint相当于关系型数据库的存储过程,而observer则相当于触发器observer允许我们在记录...原创 2018-03-14 14:40:02 · 805 阅读 · 1 评论 -
HBase优化和工具-----学习笔记
性能优化:1、Row Key:将最近可能被访问的数据放在一起;Long.MAX_VALUE - timestamp作为行键;2、InMemory:相关数据放在缓存中,实时性高;创建表的时候,设置HColumnDescriptor.setInMemory(true);3、Max Version:节约存储空间;创建表的时候,设置HColumnDescriptor.setMaxVersions(int ...原创 2018-03-14 14:31:49 · 304 阅读 · 0 评论 -
HBase系统架构---学习笔记
1、客户端:本地存储已访问过的Region位置信息,加快访问;2、ZooKeeper服务器:协调管理集群,避免单点失效,提供配置服务、域名服务、分布式同步、组服务等;3、Master服务器:负责表和Region管理;4、region服务器:维护Region,响应用户读写;Region服务器工作原理:Region服务器;Region;HLog;MemStore;StoreFile;用户读写过程:用户...原创 2018-03-14 13:48:07 · 403 阅读 · 1 评论 -
Hadoop配置文件
配置文件:core-site.xmlhadoop.tmp.dir表示存放临时数据的目录,即包括NameNode的数据,也包括DataNode的数据。该路径任意指定,只要实际存在该文件夹即可;name为fs.defaultFS的值,表示hdfs路径的逻辑名称;配置文件:hdfs-site.xmldfs.replication表示副本的数量;dfs.namenode.name.dir表示本地磁盘目录,...转载 2018-03-12 17:32:52 · 1237 阅读 · 0 评论 -
hadoop集群完整架构及设计
博主未经转载,所以只能给个链接了,转载地址:http://blog.youkuaiyun.com/quwenzhe/article/details/53905572一图解千愁。。转载 2018-03-12 16:40:39 · 3141 阅读 · 0 评论 -
Impala简介------学习笔记
Impala是由Cloudera公司开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase上的PB级大数据,在性能上比Hive高出3~30倍Impala的运行需要依赖于Hive的元数据Impala是参照 Dremel系统进行设计的Impala采用了与商用并行关系数据库类似的分布式查询引擎,可以直接与HDFS和HBase进行交互查询Impala和Hive采用相同的SQL...原创 2018-03-16 21:40:13 · 714 阅读 · 0 评论 -
Hive中SQL查询转MapReduce作业过程------学习笔记
说明:当启动MapReduce程序时,Hive本身是不会生成MapReduce算法程序的需要通过一个表示“Job执行计划”的XML文件驱动执行内置的、原生的Mapper和Reducer模块Hive通过和JobTracker通信来初始化MapReduce任务,不必直接部署在JobTracker所在的管理节点上执行通常在大型集群上,会有专门的网关机来部署Hive工具。网关机的作用主要是远程操作和管理节...原创 2018-03-16 21:28:43 · 1930 阅读 · 0 评论 -
Hive概述----学习笔记
数据仓库:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。(水平)横向扩展:增加节点;(垂直)纵向扩展:增加节点能力;Hive是一个构建于Hadoop顶层的数据仓库工具支持大规模数据存储、分析,具有良好的可扩展性...原创 2018-03-16 21:25:53 · 265 阅读 · 0 评论 -
Reduce端的Shuffle过程------学习笔记
步骤:1、Reduce任务通过RPC想JobTracker询问Map任务是否完成,完成则取走;2、将数据放在缓存,先归并,再合并,写入磁盘;3、溢写文件归并,文件中的键值对是排序的;(当数据很少时,不需要溢写到磁盘,直接在缓存中归并,然后输出给Reduce)...原创 2018-03-16 16:39:45 · 1329 阅读 · 0 评论 -
Map端的Shuffle过程------学习笔记
、合并(combine)与归并(Merge)区别:两个键值对<“a”,1>和<“a”,1>,如果合并,会得到<“a”,2>,如果归并,会得到<“a”,<1,1>>;图第一步内容:每个Map任务分配一个缓存MapReduce默认100MB缓存图第二步的内容:设置溢写比例0.8 :保证不丢失可持续运行;图第三步内容:分区默认采用哈希函数排序...原创 2018-03-16 16:33:06 · 2596 阅读 · 0 评论 -
MapReduce工作流程------学习笔记
1、不同的Map任务之间不会进行通信2、不同的Reduce任务之间也不会发生任何信息交换3、用户不能显式地从一台机器向另一台机器发送消息4、所有的数据交换都是通过MapReduce框架自身去实现的各个执行阶段:HDFS 以固定大小的block 为基本单位存储数据,而对于MapReduce 而言,其处理单位是split。split 是一个逻辑概念,它只包含一些元数据信息,比如数据起始位置、数据长度、...原创 2018-03-16 16:23:11 · 1821 阅读 · 0 评论 -
Hadoop知识概要
Hadoop是一个对大量数据分布式并行处理的框架;属于数据密集型框架;特性:高可靠:由于多副本备份机制,一般3份,可以在hdfs.site.xml中修改备份数;高效性:由于分布式计算,多节点并行处理;高可扩展性:由框架决定;另外NN federation有更好的扩展性;成本低、高容错:不解释,大家都懂;Hadoop应用架构(企业中):Hadoop组件说明:安装配置主要步骤有:修改主机名;设置SSH...原创 2018-03-12 17:33:48 · 416 阅读 · 0 评论 -
HDFS分布式文件系统学习总结
结构:主从结构(Master/slave)名称节点/数据节点;缺点:不适合低延时数据访问;无法高效存储大量小文件;不支持并发写及任意修改文件;NN:存储元数据;元数据保存在内存中;保存文件,block,DN之间的映射关系;DN:存储文件内容;文件内容保存在磁盘中;维护block ID到DN本地文件的映射关系;NN数据结构:FSImage:用于维护文件系统树以及文件树中所有的文件和文件夹的元数据;E...原创 2018-03-13 13:14:10 · 1307 阅读 · 0 评论 -
Samza框架-----学习笔记
基本概念:作业:是对一组输入流进行处理转化成输出流的程序。分区:Samza的流数据单位既不是Storm中的元组,也不是Spark Streaming中的DStream,而是一条条消息;Samza中的每个流都被分割成一个或多个分区,对于流里的每一个分区而言,都是一个有序的消息序列,后续到达的消息会根据一定规则被追加到其中一个分区里;任务:一个作业会被进一步分割成多个任务(Task)来执行,其中,每个...原创 2018-03-23 20:59:40 · 1129 阅读 · 0 评论 -
Spark Streaming总结-----学习笔记
支持多种数据源:Kafka、Flume、HDFS、普通TCP套接字等;基本原理:实时输入数据流以时间片(秒级)为单位进行拆分,然后经Spark引擎以类似批处理的方式处理每个时间片数据;Spark Streaming最主要的抽象是DStream(Discretized Stream,离散化数据流),表示连续不断的数据流。在内部实现上,Spark Streaming的输入数据按照时间片(如1秒)分成一...原创 2018-03-23 20:51:33 · 589 阅读 · 0 评论 -
Storm流数据框架------学习笔记
storm:Storm可用于许多领域中,如实时分析、在线机器学习、持续计算、远程RPC、数据提取加载转换等Storm具有以下主要特点:整合性简易的API可扩展性可靠的消息处理支持各种编程语言快速部署免费、开源storm主要包括:Streams、Spouts、Bolts、Topology和Stream Groupings;stream:Storm将流数据Stream描述成一个无限的Tuple序列,这...原创 2018-03-23 20:42:48 · 1281 阅读 · 0 评论 -
流数据------学习笔记
流数据特点:实时获取来自不同数据源的海量数据,经过实时分析处理,获得有价值的信息快速持续到达;来源多,格式复杂;数据量大,但不关心存储;注重整体价值;顺序颠倒或不完整;数据的价值随着时间的流逝而降低;流计算系统要求:高性能海量式实时性分布式易用性可靠性流计算框架:商业级:IBM InfoSphere Streams;IBM StramBase(用于银行);开源流计算框架:Twitter Storm...原创 2018-03-23 19:12:14 · 4153 阅读 · 0 评论