
Hadoop
oJueQiang123456
这个作者很懒,什么都没留下…
展开
-
Hadoop-mongodb 使用
一、概述使用hadoop-mongodb进行hdfs和mongodb之间的数据转换存储<dependency> <groupId>org.mongodb.mongo-hadoop</groupId> <artifactId>mongo-hadoop-core</artifactId> <version...原创 2020-01-06 11:35:30 · 451 阅读 · 0 评论 -
MapReduce自定义Partitioner、排序、GroupingComparator实现 同一订单中金额最大的商品
一、概述自定义Bean、Partitioner、排序、GroupingComparator实现 同一订单中金额最大的商品,减少数据流。 自定义Bean:将订单id和商品金额作为bean的属性,并将bean作为key,利用Partitioner、排序、GroupingComparator。 自定义Partitioner:将同一订单号的数据划分到同一分区,因为分区采用的是对reduce个数的取...原创 2019-12-17 16:59:14 · 294 阅读 · 0 评论 -
查找共同好友
一、概述查找共同好友如:A有好友B,C,D,E,O B有好友A,C,E,K C有好友F,A,D,I ......A:B,C,D,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,I,J思路:1...原创 2019-12-14 21:51:17 · 509 阅读 · 0 评论 -
程序执行流程(一):提交Job到Yarn集群或本地过程
1、获取配置文件,并创建job,提交到集群如:Configuration conf = getConf();conf.set("fs.defaultFS", "hdfs://192.168.30.150:8020");String jobName = getClass().getSimpleName();Job job = Job.getInstance(conf, jobName...原创 2019-11-03 21:41:25 · 524 阅读 · 0 评论 -
Hadoop日志分析demo - 概述(一)
1、概述:按城市统计活跃用户 前台通过调用nginx生成日志,记录到本地。 通过flume将本地日志上传到hfds。 通过Mapreduce对原始日志进行清洗如:ip解析成城市。 通过Mapreduce将hbase中的数据统计出来记录到mysql。 前台读取mysql中的数据进行展示。...原创 2019-06-22 17:33:44 · 225 阅读 · 0 评论 -
CHD+CM-2 初始化集群和安装软件
1、选择免费版 2、选择agent,作为集群 3、选择cdh版本 4、集群安装 5、检查主机正确性 修改叹号处(所有节点),点击重新运行echo 0 > /proc/sys/vm/swappiness 6、集群设置(机器性能有限,暂选择自定义安装:HDFS) ...原创 2019-05-26 14:55:06 · 466 阅读 · 0 评论 -
CHD+CM-1 安装
一、概述(不同的系统对应不同的CDH和CM版本)系统:centos6 CDH(CDH-5.4.0-1.cdh5.4.0.p0.27-el6.parcel):是Hadoop众多分支中的一种,包括Hive、Hbase、Flume、Kafka、Spark等等。http://archive.cloudera.com/cdh5/parcels/5.4.0/ CM(cloudera-manager-e...原创 2019-05-25 20:57:41 · 659 阅读 · 0 评论 -
Mac-单机安装yarn
1、启动sshdsudo /usr/sbin/sshd报错:Could not load host key: /etc/ssh/ssh_host_rsa_keyCould not load host key: /etc/ssh/ssh_host_dsa_keyCould not load host key: /etc/ssh/ssh_host_ecdsa_keyCould n...原创 2019-03-21 16:15:59 · 286 阅读 · 0 评论 -
Hadoop-手写WordCount
一、概述客户端:MyWordCount Mapper:MyMapper Reducer:MyReducer二、文件 MyWordCountpackage com.cfl.hadoop;import java.text.SimpleDateFormat;import java.util.Date;import org.apache.hadoop.conf.Configu...原创 2019-03-09 18:08:59 · 255 阅读 · 0 评论 -
Hadoop-YARN 分布式安装
一、概述hadoop-3.1.1.tar.gz node1(主节点:ResourseManager) node2(从节点:NodeManager) node3(从节点:NodeManager)二、流程Client提交作业到ResourseManager。 Resourse Manager随机挑选挑选一台空闲的机器创建App Mstr。 App Mstr 获取切片清单向...原创 2019-03-09 13:25:53 · 1090 阅读 · 0 评论 -
Hadoop-MapReduce
一、概述:以WordCount为例,描述MapReduce的执行过程。 特记(原语):相同的key为一组,调用一次reduce方法,方法内迭代这一组数据进行计算二、过程(3个map、4个reduce): (红色虚线框框属于reduce流程,左边属于map流程。绿色框框属于Shuffle:描述着数据从map task输出到reduce task输入的这段过程)1、在HDFS中获取数据...原创 2019-03-08 18:06:35 · 202 阅读 · 0 评论 -
Hadoop-分布式安装
一、概述hadoop-3.1.1.tar.gz 172.16.233.137(主节点) 172.16.233.138(从节点) 172.16.233.139(从节点)二、环境准备(三台机器一样)1、设置hostsvi /etc/hosts172.16.233.137 node1172.16.233.138 node2172.16.233.139 node32、三台...原创 2019-03-06 08:56:33 · 251 阅读 · 0 评论 -
Hadoop-单机版安装
一、概述hadoop-3.1.1.tar.gz 配置文件目录:/hadoop-3.1.1/etc/hadoop/二、安装 [root@bogon hadoop]# cd hadoop-3.1.1[root@bogon hadoop-3.1.1]# lsbin etc include lib libexec LICENSE.txt logs NOTICE.txt ...原创 2019-03-05 22:20:49 · 180 阅读 · 0 评论