
hadoop
西门吹水之城
这个作者很懒,什么都没留下…
展开
-
初识hadoop
关于hadoop的写入(存入)nn里面维护了一份元数据。客户端在存入的数据的时候先经过nn,查要存入的数据是否存在(通过元数据查询),如果存在就返回拒绝写入,若不存在,就开始返回可以往集群里面写入,而且还分配存入那些dn。客户端程序就开始找相应的nn,将相应的block块存进去(切分是由客户端切分的)。关于副本客户端在存入数据的时候只是将数据块block0存入相应的机器,然后由被存入的机器(nn)...原创 2018-06-24 14:07:42 · 252 阅读 · 0 评论 -
hive入门一
创建表 普通表 create table ip_table1(ip string, region string, country string,province string,city string,area string,company string) row format delimited fields terminated by '|'; 导入数据: load data local...原创 2018-12-20 16:48:25 · 209 阅读 · 0 评论 -
hive入门二
分桶 分桶是根据某一字段进行分的,根据这一字段的hash值然后对分桶数取模,进入一个reducer,这个字段分的是mapreduce中的分区,将数据分开由不同的reduce计算。 创建分桶分区的表: create table ip_table4(ip string, region string, country string,province string,city string,area ...原创 2018-12-29 10:51:13 · 195 阅读 · 0 评论 -
Spark提交任务
提交任务 带着依赖包提交 ./bin/spark-submit --class sparkJava.SparkOnHive_SqlContext \ --master spark://192.0.0.0:7077 \ --driver-memory 1g --executor-memory 1g --total-executor-cores 1 \ --jars (依赖的jar,多个的话...原创 2018-12-29 10:56:01 · 261 阅读 · 0 评论