
大数据系列
千里草竹
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hive(一)——安装配置
楔子学习了解hive,做个笔记。环境centos6.9hadoop-2.7.2hive 1.2.1几个地址hive下载地址Apache全部软件下载地址 下载速度比较慢hive 架构原创 2018-10-11 23:15:07 · 500 阅读 · 0 评论 -
HBase的MapReduce调用
楔子学习了解HBase,使用系统环境是CentOS6.9,Hadoop等版本是CDH5.3.6配置了Hadoop、HBase等环境变量,yarn可以直接使用。以下基于这些配置1.1 查看HBase执行MapReduce所依赖的Jar包[grq@hadoop hbase0986]$ bin/hbase mapredcpSLF4J: Class path contains multi...原创 2018-11-05 10:55:13 · 1256 阅读 · 2 评论 -
HUE安装配置
楔子HUE安装配置学习1 安装参考文档1.1 下载安装使用环境是CentOS6.9,HUE以及其他Hadoop等版本是CDH5.3.6需要的环境如下,但是下面安装会自动安装openJDK的依赖,之后需要卸载openJDK。yum -y install ant asciidoc cyrus-sasl-devel cyrus-sasl-gssapi gcc gcc-c++ k...原创 2018-11-08 05:09:09 · 464 阅读 · 0 评论 -
将文件导入到HBase数据表中
楔子学习了解 HBase从HDFS读取数据,导入到HBase,1.1 构建Mapper读取HDFS数据import java.io.IOException;import org.apache.hadoop.hbase.client.Put;import org.apache.hadoop.hbase.io.ImmutableBytesWritable;import org.a...原创 2018-11-05 19:40:06 · 3036 阅读 · 0 评论 -
win10修改hosts权限
楔子win10修改hosts模拟主机映射使用工具SwitchHosts权限不足C:\Windows\System32\drivers\etc原创 2018-12-19 22:42:13 · 1415 阅读 · 0 评论 -
BigData_A_A_01-hdfs分布式文件系统(1)全分布式
楔子学习 hadoop(基于hadoop3.1.1),学习视频可以参看大数据第二阶段:hadoop体系之离线计算1 前期准备1.1 hosts修改win10修改hosts权限虚拟机4 台 ,分配如下NN-1NN-2DNZKZKFCJNNhad1***had2*****had3***had4*...原创 2018-12-20 19:46:34 · 184 阅读 · 0 评论 -
BigData_A_A_01-hdfs分布式文件系统(2)高可用
楔子Hadoop 3 高可用搭建记录1 zookeeper集群zoo.cfg 文件配置数据文件位置等信息#其他使用默认dataDir=/opt/data/zkserver.1=had2:2888:3888server.2=had3:2888:3888server.3=had4:2888:3888分发到其他机器 scp -r zookeeper-3.4.6/ had4:...原创 2018-12-20 22:37:03 · 203 阅读 · 0 评论 -
hive连接提示 root is not allowed to impersonate root (state=08S01,code=0)
1 使用beeline jdbc:hive2://had1:10000/default;auth=noSasl2 在hadoop 的core-site.xml添加如下内容 然后重启<property> <name>hadoop.proxyuser.root.groups</name> <value>root&原创 2018-12-26 20:44:47 · 4317 阅读 · 0 评论 -
BigData_A_A_01-hdfs分布式文件系统(3)yarn高可用配置
楔子Hadoop的学习 学习可以参考 此处视频学习过程中 HDFS搭建还是基于Hadoop3 ,但是在YARN的搭建就变为了 2.6.5版本原创 2018-12-22 18:21:43 · 283 阅读 · 0 评论 -
BigData_A_A_03-YARN-资源管理和任务调度(1)
楔子计算每个月温度最高的2天data数据codehttps://github.com/qianlicao51/hd/tree/master/src/main/java/cn/sxt/day1/hdfs/weather比较时使用了 apache工具类 [比较](https://blog.youkuaiyun.com/u012848709/article/details/81750788#t73...原创 2018-12-23 23:42:33 · 168 阅读 · 0 评论 -
BigData_A_A_03-YARN-资源管理和任务调度(2)共同好友(hadoop)
楔子hadoop 统计共同好友demo思路是 两次遍历,按照 他俩是不是直接好友,如果是直接好友,输出 key(friendA + “:” + friendB) value(0)如果 他俩是同一个人的好友 输出 key(friendA + “:” + friendB) value(0)在根据 key分组求和,和就是他俩的共同好友个数但是需要注意,还需要判断,如果他俩是直接好友,注...原创 2018-12-24 20:49:33 · 203 阅读 · 0 评论 -
BigData_A_A_03-YARN-资源管理和任务调度(2)共同好友(spark)
楔子最近看了hadoop求共同好友,也了解一些spark基本编程,感觉 思路 一致,可以试试sparkdemo是否是直接好友,因为存在这种情况,他俩是直接好友,但是他俩同时也是别人的间接好友,这种情况排除,因此两次flatMap,第二次就是为了排除第一次 中包含的他俩是直接好友的情况,但是这种存在一个问题,排除使用的是集合的操作,如果数据量大,可能有问题。import java.uti...原创 2018-12-24 20:54:55 · 260 阅读 · 0 评论 -
kafka简单学习
楔子kafka简单学习 基于kafka_2.10-0.8.2.2.tgz搭建基于3台虚拟机had2,had3,had4 上面均有zookeeperserver.properties配置下面3个属性broker.id=0# 三台机器依次是 0 1 2 log.dirs=/opt/kafka210/date/kafka-logszookeeper.connect=had2:2181...原创 2019-01-06 11:41:03 · 164 阅读 · 0 评论 -
Flume 几个例子
楔子最近看了看Flume,做个笔记,方便下次快速找到安装Flume 安装设置 配置文件flume-env.sh 的JAVA_HOME即可1.1 监听 端口数据Telnet localhost 44444 输入## fileName flume-telnet.conf#Name the components on this agenta1.sources = r1a1.sink...原创 2019-01-15 23:53:31 · 217 阅读 · 0 评论 -
flume 之间数据流转
楔子flume监控日志文件 数据从had2 流转到had3had2 flume.comf# Name the components on this agenta1.sources = r1a1.sinks = k1a1.channels = c1# Describe/configure the sourcea1.sources.r1.type = execa1.source...原创 2019-01-16 08:08:16 · 224 阅读 · 0 评论 -
hive报错
楔子记录hive报错信息1 java.lang.NoClassDefFoundError: org/apache/hadoop/mapred/MRVersion因为使用的是 CDH版本的hive,而hadoop 是 原生态 的。参考https://blog.youkuaiyun.com/bornzhu/article/details/80272906...原创 2019-02-15 21:47:11 · 226 阅读 · 0 评论 -
hive 用户自定义函数
楔子hadoop权威指南,用户自定义函数12.8 用户定义函数 如何需要的查询无法使用hive提供的内置函数来表示。通过写“用户自定义函数(UDF)”,hive可以方便地插入用户写的处理代码并在查询中调用他们。 UDF必须用Java语言编写,hive本身也是java写的。 hive中有三种UDF:(普通)UDF,用户自定义聚集函数 UDAF,以及用户定义表生成函数 UDTF。它...原创 2019-03-10 22:34:39 · 904 阅读 · 0 评论 -
Hadoop权威指南——关于Sqoop
楔子读《Hadoop权威指南第三版》笔记第15章 关于SqoopHadoop平台的最大优势在于他支持使用不同形式的数据。HDFS能够可靠地存储日志和来自平台不同渠道的其他数据,MapReduce程序能够解析多种数据格式。为了能够和HDFS之外的数据存储库进行交互,MapReduce程序需要使用外部API来访问数据。通常,一个组织中有价值的数据都存储在关系型数据库系统等结构化存储器中。S...原创 2018-11-09 21:17:51 · 525 阅读 · 0 评论 -
Hadoop分布式文件系统
1 HDFS的设计HDFS以流式数据访问模式来存储超大文件,运行于商业硬件集群上。超大文件流式数据访问 :HDFS的构建思路:一次写入,多次读取时最高效的访问模式。数据集群通常由数据源生成或从数据源复制而来,接着长时间在此数据集上进行各种分析。每次分析都将设计该数据集的大部分数据甚至全部。因此读取整个数据集的时间延迟比读取第一条记录的时间延迟更严重。商用硬件低时间延迟的数据访问:要求低...原创 2018-11-02 10:05:11 · 178 阅读 · 0 评论 -
Hadoop 安装——本地模式
楔子Hadoop安装。Hadoop运行支持3中模式:本地模式(单进程模式),伪分布式、完全分布式本地模式:默认情况下,Hadoop是一个非分布式模式运行的单个java进程,这种模式常用于开发环境的调试工作,Hadoop本地模式不需要用到HDFS和YARN模块,只需要用到本地文件即可。伪分布式:Hadoop的后台进程以独立的方式在同一台机器上启动,也就是说 NameNode、Sec...原创 2018-10-18 16:34:50 · 596 阅读 · 0 评论 -
Hive(二)——数据查询等
楔子学习了解hivehive常用交互命令[root@hadoop102 ~]# hive -helpusage: hive -d,--define <key=value> Variable subsitution to apply to hive commands. e.g. -d A=...原创 2018-10-15 23:14:25 · 996 阅读 · 0 评论 -
Oozie——安装配置
楔子了解调度框架 oozie。学习资料来自网络视频安装目前是基于 CDH版本的oozie-4.0.0-cdh5.3.6原创 2018-10-22 23:13:33 · 448 阅读 · 0 评论 -
HBase——安装
楔子学习了解HBase 。使用版本是cdh5.3.6。该版本下载地址是:下载地址原创 2018-10-28 17:32:42 · 153 阅读 · 0 评论 -
HBase——java API操作
楔子hbase java操作import java.io.IOException;import java.util.ArrayList;import java.util.List;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Cell;import org.apache.ha...原创 2018-10-28 22:14:35 · 206 阅读 · 0 评论 -
Oozie——多脚本逻辑顺序执行
楔子oozie顺序执行sh脚本。1 描述依次执行p1.sh 和p2.sh。每个里面都是简单的打印信息。如下p1.sh[grq@hadoop102 shell]$ more p1.sh #!/bin/bashecho ''>/tmp/p1.log/sbin/ifconfig>>/原创 2018-10-23 12:02:19 · 743 阅读 · 0 评论 -
Hive(二)——数据导入、查询、函数等
楔子学习了解hive数据操作数据导入向表中装载数据(load)语法load data [local] inpath '路径' [overwrite] into table 表名 partition(partcol1=val1,...)load data:表示加载数据local :表示从本地加载数据到hive,否则从HDFS加载数据到hive表inpath:表示加载数据的路劲...原创 2018-10-21 17:40:09 · 254 阅读 · 0 评论 -
Hadoop——HDFS
楔子Hadoop 使用的版本是cdh5.3.6 CentOS6.91.1 认识HDFSHDFS和其他分布式文件有很多相似性。它最显著的差别在于高容错,以及其可以运行在廉价的商用机器上。HDFS基于流式的、高吞吐数据访问。适用于大数据处理。相关概念数据块(Block)在HDFS中,块是一个抽象的概念,HDFS 2.X中默认大小是128M。HDFS文件系统也是分块进行存...原创 2018-10-26 02:49:40 · 187 阅读 · 0 评论 -
sqoop
楔子sqoop学习了解1 安装配置官方不推介使用1.99.7下载 解压wget http://mirrors.shu.edu.cn/apache/sqoop/1.4.7/sqoop-1.4.7.bin__hadoop-2.6.0.tar.gzconf配置文件目录复制 sqoop-env-template.sh 为 sqoop-env.sh修改配置文件sqoo...原创 2018-10-21 21:54:27 · 168 阅读 · 0 评论 -
hadoop apache版本和cdh版本的区别和联系
参考原文CDH下载地址https://archive.cloudera.com/cdh5/cdh/5/转载 2018-10-21 22:22:09 · 2974 阅读 · 0 评论 -
Hadoop 安装——伪分布式
楔子学习了解Hadoop伪分布式涉及到8个位置原创 2018-10-23 21:12:34 · 194 阅读 · 0 评论 -
Hadoop ——YARN
楔子1 YARN的组成YARN由 ResourceManager、NodeManager、ApplicationsMastrt和Container等组件组成。资源管理器(Resource Manager) 资源管理器是YARN的核心组件,负责整个Hadoop集群中的资源管理和分配,运行在主节点上。它的主要任务是维护集群所有资源的全局视图,接收客户端提交的所有资源请求,然后调度,...原创 2018-10-26 07:17:54 · 181 阅读 · 0 评论 -
Hadoop源码编译学习
楔子 Hadoop源码编译学习 可以参考这个 需要工具可以从此处下载 https://download.youkuaiyun.com/download/u012848709/10509736 Hadoop编译需要软件[root@centos soft]# ##Hadoop编译需要软件总用量 58776 root root 5635116 6月 29 20:51 apache...原创 2018-10-26 20:47:00 · 167 阅读 · 0 评论 -
ERROR: Can't get master address from ZooKeeper; znode data == null
楔子hbase shell出现错误ERROR: Can't get master address from ZooKeeper; znode data == nullHere is some help for this command:List all tables in hbase. Optional regular expression parameter couldbe us...原创 2018-11-06 09:03:09 · 4158 阅读 · 2 评论 -
HBase与Hive交互操作
楔子hbase 与 hive 交互需要操作hive的同时对hbase也产生原创 2018-11-06 21:50:51 · 513 阅读 · 0 评论 -
HBase与Sqoop集成
楔子使用sqoop将RDBMS数据导入到HBase当中1 配置sqoop-env.sh主要配置如下#Set path to where bin/hadoop is availableexport HADOOP_COMMON_HOME=/opt/module/hadoop250#Set path to where hadoop-*-core.jar is availablee...原创 2018-11-06 23:11:38 · 1296 阅读 · 0 评论 -
FAILED: ParseException line 1:0 character '#' not supported here
楔子hive 使用.hiverc配置出现错误 FAILED: ParseException line 1:0 character '#' not supported here.hiverchive执行是配置参数文件 ,经过测试 ,注释 用`--` 来代替 `# `。每个配置之后加上 `;`--在命令行中显示当前数据库名set hive.cli.print.current.db=t...原创 2019-03-11 12:45:16 · 4166 阅读 · 0 评论