
hadoop
Claroja
这个作者很懒,什么都没留下…
展开
-
docker 安装hadoop
创建centos7容器sudo docker run -dit --name hdfsyarn centos:centos7 /bin/bash安装过程可参考docker centos7 安装sshhadoop 配置 docker伪分布式(单节点)安装好后,提交containersudo docker stop hdfsyarnsudo docker commit hdfsyarn bigdata:sshdfsyarn更改端口映射(可以一开始就映射好)sudo docker run -原创 2020-12-05 23:21:40 · 217 阅读 · 0 评论 -
hadoop 配置 docker伪分布式(单节点)
在~/.bashrc中添加环境变量export JAVA_HOME=/bigdata/jdk1.8.0_212export PATH=$PATH:$JAVA_HOME/binexport HADOOP_HOME=/bigdata/hadoop-3.1.3export PATH=$PATH:$HADOOP_HOME/binexport PATH=$PATH:$HADOOP_HOME/sbin1.配置hdfs1.配置etc/hadoop/core-site.xml:<configura原创 2020-12-05 23:16:25 · 365 阅读 · 0 评论 -
Hadoop Hbase单机配置
1.配置java_homeexport JAVA_HOME=/usr/jdk64/jdk1.8.0_1122.配置hbase<configuration> <property> <name>hbase.rootdir</name> <value>file:///home/testuser/hbase</va...原创 2019-11-20 22:23:15 · 134 阅读 · 0 评论 -
hadoop yarn 单机
yarn单机不需要配置原创 2019-11-20 22:22:06 · 148 阅读 · 0 评论 -
hadoop hdfs 单机配置
hadoop的配置文件在:/root/apps/hadoop安装目录/etc/hadoop/1.修改hadoop-env.sh,配置java环境变量export JAVA_HOME=/usr/local/share/java2.修改core-site.xml,设置文件系统和访问位置<configuration> <property> <name>f...原创 2019-11-20 22:21:26 · 441 阅读 · 0 评论 -
Hadoop HIVE 窗口函数
select id,age,name,sex,row_number() over(partition by sex order by age desc) as rankfrom t_rownumber原创 2019-11-14 21:39:45 · 234 阅读 · 0 评论 -
Hadoop HIVE 自定义函数
HIVE中可以自定义函数原创 2019-11-14 21:39:19 · 157 阅读 · 0 评论 -
Hadoop Hbase 模型结构
Hbase有行的概念,但没有字段的概念.要素:表:一个Hbase中含有多个表列簇:一个表含有多个列簇行键(rowkey):一个表含有多个行键,行键不能重复单元(cell):一个列簇可以有多个单元键值对(kv):一个单元就是一个键值对历史版本:一个key可以对应多个value的历史版本region:一个表过大,会被横向切割成若干个region顺序:1.首先按行键排序2.再次按列...原创 2019-11-14 21:38:51 · 188 阅读 · 0 评论 -
Hadoop Hbase安装配置
数据库描述Mysqlsql,事务处理,增删改查,HIVEsql,数据仓库,存储和查询一般不修改,容量大(hdfs),计算能力强(mr)Hbasenosql,事务处理,增删改查Hbase:1.基于HDFS所以能随时扩容2.可增删改查的分布式数据库系统概念:rowkey,行键column,列簇key:value:cell:角色1.HMas...原创 2019-11-14 21:38:23 · 157 阅读 · 0 评论 -
Hadoop Flume
#定义三大组件的名称ag1.sources = source1ag1.sinks = sink1ag1.channels = channel1# 配置source组件ag1.sources.source1.type = spooldir # 读取目录ag1.sources.source1.spoolDir = /root/log/ # 设置所读取的目录ag1.sources.s...原创 2019-11-14 21:37:37 · 115 阅读 · 0 评论 -
Hadoop sqoop
概念联通数据库(mysql,oracle等)和hadoop数据仓库(hdfs,hive,hbase)将导入或导出命令翻译成mapreduce程序来实现安装1.需要hadoop环境2.修改配置文件sqoop-env.shexport HADOOP_COMMON_HOME=/home/hadoop/apps/hadoop-2.6.1/ export HADOOP_MAPRED_HOME...原创 2019-11-14 21:37:12 · 181 阅读 · 0 评论 -
Hadoop HIVE JavaAPI
DDL操作表的增删改查1、构建连接2、从连接中取到一个表DDL操作工具admin3、admin.createTable(表描述对象);4、admin.disableTable(表名)5、admin.deleteTable(表名);6、admin.modifyTable(表名,表描述对象);package demo;import org.apache.hadoop.conf.Co...原创 2019-11-14 21:36:46 · 181 阅读 · 1 评论 -
Hadoop 高可用集群(HA)
1. 配置1.修改 core-site.xml<configuration> <!-- 指定hdfs的nameservice为ns1 --> <property> <name>fs.defaultFS</name> <value>hdfs://hdzoo/</value> </proper...原创 2019-11-08 22:41:21 · 323 阅读 · 0 评论 -
Hadoop Streaming
参考:http://hadoop.apache.org/docs/r2.6.0/hadoop-mapreduce-client/hadoop-mapreduce-client-core/HadoopStreaming.html原创 2019-11-08 22:40:50 · 214 阅读 · 0 评论 -
HDFS Python
cat = subprocess.Popen(["hadoop", "fs", "-cat", "/path/to/myfile"], stdout=subprocess.PIPE)for line in cat.stdout: print lineimport pydoop.hdfs as hdfswith hdfs.open('/user/myuser/filename') a...原创 2019-10-28 22:49:32 · 153 阅读 · 0 评论 -
MapReduce Python
参考:http://crs4.github.io/pydoop/index.htmlhttps://stackoverflow.com/questions/6811549/how-can-i-include-a-python-package-with-hadoop-streaming-job/6811775#6811775原创 2019-10-28 22:49:20 · 327 阅读 · 0 评论 -
Hadoop HIVE 安装配置(单机&集群)
解析SQL语法,组装成一个mapreduce jobhive sql语句中的表和日志文件之间的映射关系 是通过mysql来实现的配置1.修改配置文件conf/hive-site.xml<configuration><property><name>javax.jdo.option.ConnectionURL</name><valu...原创 2019-08-28 23:06:52 · 549 阅读 · 0 评论 -
Hadoop HIVE 创建表
创建库库名目录描述defaulthdfs://hdp20-01:9000/user/hive/warehouse默认数据库create database db_test;hdfs://hdp20-01:9000/user/hive/warehouse/db_order.db在/user/hive/warehouse/目录下创建创建表use db_tes...原创 2019-08-28 23:07:24 · 4965 阅读 · 0 评论 -
Hadoop HIVE 关联查询
写sql时首先写表from(from是构造表),join是关联,on是join的条件1.inner joininner是a.name=b.name两张表都有才返回select a.*,b.*from t_a a inner join t_b b on a.name=b.name2.left joinleft和right都可以省略outer关键字left是右表没有则填nullse...原创 2019-08-28 23:07:54 · 346 阅读 · 1 评论 -
Hadoop HIVE 聚合查询
非聚合,对每一行进行计算select ip,upper(url),access_time # 该表达式进行逐行运算from log;聚合,对分组数据进行计算select url,count(1) as cnts # 该表达式是对分好组的数据组内每行进行运算,count(1)表示每行+1from log group by url having cnts>2; #having...原创 2019-08-28 23:08:21 · 374 阅读 · 0 评论 -
Hadoop HIVE 基本数据类型
1.数字类型类型描述TINYINT(1-byte signed integer, from -128 to 127)SMALLINT(2-byte signed integer, from -32,768 to 32,767)INT/INTEGER(4-byte signed integer, from -2,147,483,648 to 2,147,483...原创 2019-08-28 23:08:51 · 383 阅读 · 0 评论 -
Hadoop HIVE 复合数据类型
1.数组 arraysarrays: ARRAY<data_type> (Note: negative values and non-constant expressions are allowed as of Hive 0.14.)建表create table t_movie(moive_name string,actors array<string>,first_...原创 2019-08-28 23:09:21 · 182 阅读 · 0 评论 -
Hadoop HIVE 基本函数
1.类型转换函数select cast("5" as int)2.数学运算函数select round(5.4)select greatest(3,5,6)3.字符串函数select substr("abcdefg",2)4.时间函数select current_timestamp;select current_date;5.其他explode(subjects) 去除列表...原创 2019-08-28 23:09:54 · 341 阅读 · 0 评论 -
Hadoop HIVE 条件控制函数
caseCASE WHEN condition1 THEN result1 WHEN condition2 THEN result2 ... WHEN conditionn THEN resultn ELSE resultEND例子select id,name,casewhen age<28 then 'yo...原创 2019-11-14 21:40:06 · 182 阅读 · 0 评论 -
局域网络配置
IPNETMASK 子网掩码 看属于哪个网段,与iP地址二进制与运算(&)得出结果就是网段 255.255.255.0GATEWAY 路由器默认网关 192.168.1.1 192.168.0.1 DNS 用来解析域名 首先访问本地host 如果没有再访问远程DNS服务器 最好填自己的网关,可以自己去找DNS服务器 谷歌DNS服务器 8.8.8.8广播地址 192.168.原创 2017-09-15 16:44:46 · 1107 阅读 · 0 评论