
大数据-Hadoop
心雨先生
做一条有理想的咸鱼
展开
-
hadoop远程调试所遇到的一些异常
hadoop远程调试所遇到的一些异常问题一: 抛异常:java.io.IOException: Failed on local exception: com.google.protobuf.InvalidProtocolBufferException: Protocol message end-group tag did not match expected tag.;可能是端口问题 cdh的环境...转载 2018-05-17 09:28:08 · 695 阅读 · 0 评论 -
5.3 HBase数据库-伪-完全分布式搭建
HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩、 实时读写的分布式数据库利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理 HBase中的海量数据,利用Zookeeper作为其分布式协同服务主要用来存储非结构化和半结构化的松散数据ROW KEY:决定一行数据,按照字典顺序排序的,只能存储64k的字节数据Column Fa...原创 2018-06-05 08:31:54 · 356 阅读 · 0 评论 -
5.4 HBase语句
hbase shell 进入HBaseHBase光标是往后删除的,要往前删除需要按着Ctrllist 查看当前HBase中具有哪些表listcreate 'scores','grade', 'course' 创建表,表名scores,列族grade,courseput 'scores','1','course:name','sansan' 向scores表中添加row key为...原创 2018-06-06 08:46:00 · 248 阅读 · 0 评论 -
6.3 Impala介绍
https://www.cloudera.com/products/open-source/apache-hadoop/impala.htmlhttp://www.impala.io/index.htmlCloudera公司推出,提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。基于Hive使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点是CDH平台首选的PB级大数据...原创 2018-06-21 08:31:57 · 445 阅读 · 0 评论 -
5.5 HBase表设计实例
1、人员-角色 人员有多个角色 角色优先级 角色有多个人员 人员 删除添加角色 角色 可以添加删除人员 人员 角色 删除添加人员表rowkey cf1-人员基本信息 cf2-角色列表pid cf1:pname=hmm;... cf2:rid=n(优先级)001 cf1:pname=小明;cf1:sex=boy;... cf2:101=0;...原创 2018-06-07 09:17:10 · 1171 阅读 · 0 评论 -
6.4 Impala和HBase进行整合,JDBC
Impala可以通过Hive外部表方式和HBase进行整合步骤1:创建hbase 表,向表中添加数据create 'test_info', 'info'put 'test_info','1','info:name','zhangsan'put 'test_info','2','info:name','lisi'• 步骤2:创建hive表CREATE EXTERNAL TABLE test_info...原创 2018-06-22 08:23:33 · 540 阅读 · 0 评论 -
5.1 hive数据仓库
hive:是数据仓库,不是数据库,是非Java编程者对hdfs的数据做mapreduce操作,把SQL语言转化为mapreduce语言数据仓库:存的是历史数据,做分析用,增加冗余数据库:存在线数据,减少冗余hive最小处理单元是操作符,每个操作符代表hdfs的一个操作或一个mapreduce程序hive三种模式:本地模式,单用户模式,多用户模式mysql安装:yum -y install mysq...原创 2018-06-01 10:08:07 · 462 阅读 · 0 评论 -
5.6 HBase优化-Protocol Buffer
Protocol Buffer:是一种轻便高效的结构化数据存储格式,可以用于结构化数据串行化,或者说序列化Protocol Buffer安装:yum grouplist 检查yum 组--安装包在yum里是分组的yum groupinfo Development tools 查看Development tools组信息yum groupinstall Development ...原创 2018-06-08 15:34:55 · 409 阅读 · 0 评论 -
5.7 HBase和MapReduce整合
读hdfs数据写到HBase中:注意hadoop和HBase的包都需要导入,先创建表WordCountMapper:package com.laoxiao.mr.hbase;import java.io.IOException;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;impor...原创 2018-06-09 09:30:10 · 728 阅读 · 0 评论 -
7.1 redis介绍以及安装
官网:www.redis.ioRedis:开源的,遵循BSD协议,使用C语言编写;基于内存的(一般内存数据库数据都不持久)且支持持久化,高性能 的Key-Value的NoSQL数据库(非关系型数据库)Redis:版本好偶数结尾的都是稳定版,奇数结尾的都是测试版支持数据结构类型丰富,有如 字符串(strings), 散列(hashes), 列表 (lists), 集合(sets), 有序集合(sor...原创 2018-06-25 08:19:06 · 285 阅读 · 0 评论 -
6.1 CDH介绍安装安装前准备
CDH 是hadoop的发行版,是hadoop分支中的一种,由cloudera维护,基于稳定版的hadoop构建,提供hadoop核心CDH3:是最早版本,对应hadoop1.x版本 开始免费版只支持50个机器CDH4,CDH5,对应hadoop2.X版安装方式:clouder Manager 是一个管理CDH端到端的应用,管理监控,诊断,集成Yum rpmTarball要是三台虚拟机:...原创 2018-06-19 10:21:37 · 3063 阅读 · 0 评论 -
6.2 Cloudera Manager(CDH)安装
前提:前面安装前准备步骤没有出错1、安装Cloudera Manager Server、Agent上传cloudera-manager-el6-cm5.4.3_x86_64.tar.gz 包mkdir /opt/cloudera-managertar xvzf cloudera-manager*.tar.gz -C /opt/cloudera-manager或 tar -zxvf clouder...原创 2018-06-20 08:18:24 · 2667 阅读 · 0 评论 -
7.7 zookeeper分布式锁原理图
1,每个文件节点都创建一个锁的概念的文件,文件是以sequential自增序列令名2,每次选择执行节点的时候,都会获取最小的节点来执行3,执行的节点执行之前判断自己是否是最小的,不是最小的就找自己前面的一个创建一个Watcher 来监控比自比自己小一个的节点4,当自己节点是最小的时候,判断自己创建的锁文件是否存在,存在就等待Watcher 通知,要是不存在就执行...原创 2018-07-03 09:53:38 · 268 阅读 · 0 评论 -
mapreduce框架内部核心工作流程
mapreduce框架内部核心工作流程图流程1、mapTask调用InputFormat再调用RecourReader的read()方法来读取数据,获得key、value,mapreduce通过InputFormat来解耦2、read()方法依靠一次读取一行的逻辑来读取原始文件的数据,返回key、value,mapTask会将其交给自定义的Mapper3、map方法我们会调用co...转载 2019-06-05 09:22:16 · 1302 阅读 · 0 评论 -
5.8 Java操作HBase
HBase模糊查询:http://www.cnblogs.com/seaspring/p/5631933.html/** * <p>内容描述:操作HBase</p> * @author lvjie * @date 2017年7月7日 上午11:54:20 */public class UseHbase { public static String TN = "tab1"; ...原创 2018-06-11 16:25:52 · 185 阅读 · 0 评论 -
5.2 hive语句
内表删除表或者分区元数据和数据都删了外表删除表元数据删除,数据保留show databases; 查看所有库hive -f create.sql 在hive里执行脚本create database traffic; 创建数据库use traffic; 切换数据库show tables; 查看表创建表(内部表):create table psn1 (id int, ...原创 2018-06-04 09:15:56 · 375 阅读 · 0 评论 -
Permission denied: user=administrator, access=WRITE, inode="/":root:supergroup:drwxr-xr-x
搭建了一个Hadoop的环境,Hadoop集群环境部署在几个Linux服务器上,现在想使用windows上的Java客户端来操作集群中的HDFS文件,但是在客户端运行时出现了如下的认证错误,被折磨了几天,问题终得以解决。以此文记录问题的解决过程。(如果想看最终解决问题的方法拉到最后,如果想看我的问题解决思路请从上向下看)问题描述上传文件的代码:package com.cys.mapreduce;i...转载 2018-05-17 09:38:37 · 708 阅读 · 0 评论 -
3.1 Hadoop-MapReduce编程逻辑
Hadoop MapReduce工作详细流程(Partitioner/SortComparator/GroupingComparator):map阶段1. 使用job.setInputFormatClass(TextInputFormat)做为输入格式。注意输出应该符合自定义Map中定义的输出。2. 进入Mapper的map()方法,生成一个List。3. 在map阶段的最后,会先调用job.se...原创 2018-05-17 10:11:55 · 696 阅读 · 0 评论 -
1.0 Hadoop-HDFS介绍及安装
HDFS分布式存储系统(提供了 高可靠性、高扩展性和高吞吐率的数据存储服务)HDFS优点:高容错性 数据自动保存多个副本,副本丢失后,自动恢复适合批处理 移动计算而非数据,数据位置暴露给计算框架适合大数据处理可构建在廉价机器上HDFS缺点:低延迟数据访问 比如毫秒级,低延迟与高吞吐率小文件存取 占用NameNode 大量内存,寻道时间超过读取时间并发写入、文件随机修改 最好不要修改HD...原创 2018-05-11 08:41:08 · 2497 阅读 · 1 评论 -
3.2 Hadoop-MapReduce,统计词数
统计文件中的各个词出现的次数jar包直接上传服务器上运行直接打src下的代码:hadoop jar MapReduce.jar com.test.mapreduce.RunJob 直接在服务器上执行jar包相对于的类项目中的org.apache.*包和core-site.xml和hdfs-site.xml是方便本地eclipse上运行测试项目结构:CountMapper:import jav...原创 2018-05-18 10:32:26 · 405 阅读 · 0 评论 -
mapreduce运行当中出现的一系列问题
一.简介 Windows下的 Eclipse上调试Hadoop2代码,所以我们在windows下的Eclipse配置hadoop-eclipse-plugin-2.6.0.jar插件,并在运行Hadoop代码时出现了一系列的问题,搞了好几天终于能运行起代码。接下来我们来看看问题并怎么解决,提供给跟我同样遇到的问题作为参考。 Hadoop2的WordCount.java统计代码如下: ...转载 2018-05-18 11:28:02 · 2010 阅读 · 1 评论 -
2.0 Hadoop-HDFS高可用原理
–HDFS存在的问题•NameNode单点故障,难以应用于在线场景•NameNode压力过大,且内存受限,影响系统扩展性–解决单点故障•HDFS HA:通过主备NameNode解决•如果主NameNode发生故障,则切换到备NameNode上ZK:zookeeper 一定要是奇数台 --当NNActive挂了之后选举启用哪台NN StandbyZKFC:zookeeper Fail...原创 2018-05-12 08:07:48 · 493 阅读 · 0 评论 -
3.3 Hadoop-MapReduce,统计温度
统计一年最高温度的三个月工程结构:WeatherKey:package com.test.weather;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.io.WritableComparable;public class WeatherKe...原创 2018-05-21 11:17:10 · 709 阅读 · 0 评论 -
2.1 Hadoop-HDFS高可用搭建
core-site.xml<configuration><property> <name>fs.defaultFS</name> <value>hdfs://yuntian</value></property><property> <name>ha.z原创 2018-05-15 09:53:32 · 282 阅读 · 0 评论 -
3.4 Hadoop-MapReduce,模拟QQ好友推荐
模拟QQ好友推荐,好友的好友,出现次数最多的推荐第一行为QQ账号名,后面同排为自己好友工程结构:Mapper1:package com.test.friend;import java.io.IOException;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text;import org.apache.ha...原创 2018-05-22 11:19:19 · 624 阅读 · 0 评论 -
2.2 Hadoop-MapReduce配置YARN环境
MapReduce是一个计算框架,可分为5个阶段split-------Map------sort(洗牌)------reduce-----------数据输出1,把需要分析的数据切割成片段,每个数据片段不能超过一个Block块2,Map任务阶段,把切割好的数据片段读进来进行分析,有多少个片段就有多少任务,平行进行3,洗牌阶段,把Map输出的数据进行排序,分组,分区等,不改变数据结构4,reduc...原创 2018-05-16 08:07:12 · 297 阅读 · 0 评论 -
3.5 Java操作hdfs,Maven配置
/** * <p>内容描述:操作hadoop</p> * @author lvjie * @date 2017年7月7日 上午11:53:50 */public class UseHadoop { //读取集群文件夹下的文件 public void login(FileSystem fs) throws IOException{ Path path =new Path("...原创 2018-05-23 09:52:15 · 2042 阅读 · 0 评论 -
4.1 Hadoop-dijkstra(狄克斯特拉)算法-计算最短距离
dijkstra(狄克斯特拉)算法:从一个顶点到其余各顶点的最短路径算法,解决的是有向图中最短路径问题。迪杰斯特拉算法主要特点是以起始点为中心向外层层扩展,直到扩展到终点为止,常用在地图和社交–步骤:–A为起始点。首先标记它到自已的距离为0。到其他节点的距离为无穷大–进入迭代:•第一次迭代,从数据中取出起点A,找到A的邻接点B, C..,并更新到B, C的距离。•第二次迭代,分别从扩张点B,C,G...原创 2018-05-23 10:29:48 · 1705 阅读 · 1 评论 -
4.2 Hadoop-协同过滤算法
协同过滤常常被用于分辨某位特定顾客可能感兴趣的东西,这些结论来自于对其他相似顾客对哪些产品感兴趣的分析。协同过滤以其出色的速度和健壮性,在全球互联网领域炙手可热基于用户的协同过滤算法UserCF基于用户的协同过滤,通过不同用户对物品的评分来评测用户之间的相似性,基于用户之间的相似性做出推荐。简单来讲就是:给用户推荐和他兴趣相似的其他用户喜欢的物品基于物品的协同过滤算法ItemCF基于item的协同...原创 2018-05-23 10:32:51 · 1646 阅读 · 0 评论 -
mapreduce——join算法的代码实现
需求:有user数据文件:user.csvu001,senge,18,angelababyu002,laozhao,48,ruhuau003,xiaoxu,16,chungeu004,laoyang,28,zenggeu005,nana,14,huangbo有订单数据文件:order.dat.1 order.dat.2 order.dat.3order001,u00...转载 2019-06-05 09:32:25 · 871 阅读 · 0 评论