
Hadoop
魂落忘川犹在川
无端坠入红尘梦,惹却三千烦恼丝。
展开
-
spark-windows本地环境搭建
本机系统windows10Hadoop是hadoop-3.2.0,替换hadoop.dll 和winutils.exe (直接换掉bin目录)github找 https://github.com/steveloughran/winutils/blob/master/hadoop-3.0.0/binscala-SDK-2.12.10 , spark2.4.3不需要本地环境pom配置即可 (注意spark3.0会出现java 9 报错,网上的方法都不可用)环境变量JAVA_HOME、HADOOP..原创 2022-01-11 16:44:11 · 1092 阅读 · 0 评论 -
使用MapReduce读取Hbase数据到本地磁盘
本文主要讲述读取hbase数据到本地磁盘,且仅一个分区文件,若想一次输出多个分区文件,参考本文上篇文章:https://blog.youkuaiyun.com/weixin_43345864/article/details/84889874代码如下:注意Hadoop版本问题:pom.xml如下<build> <plugins> <...原创 2018-12-10 21:11:24 · 962 阅读 · 0 评论 -
MapReduce实现倒排索引
倒排索引这个名字让人很容易误解成A-Z,倒排成Z-A;但实际上缺不是这样的。一般我们是根据问文件来确定文件内容,而倒排索引是指通过文件内容来得到文档的信息,也就是根据一些单词判断他在哪个文件中。知道了这一点下面就好做了:准备一些元数据下面我们要进行两次MapReduce处理第一次package com.invalid;import java.io.IOException;im...原创 2018-12-03 20:28:56 · 636 阅读 · 0 评论 -
idea工具里运行MapReduce报权限问题的错误
问题描述:程序在eclipse正常运行,在idea里不能运行报错信息java.lang.NoSuchFieldError: workaroundNonThreadSafePasswdCalls at org.apache.hadoop.io.nativeio.NativeIO.initNative(Native Method) at org.apache.hadoop.io.nativei...原创 2018-12-08 13:10:13 · 1344 阅读 · 0 评论 -
用一个MapReduce输出多个key的分区文件
先看一下要处理的数据类型19392963501,17816115082,2018-09-18 16:19:44,143114081946321,13094566759,2018-05-23 09:34:27,061013415701165,18939575060,2018-11-23 21:33:23,103115590483587,16303009156,2018-08-02 07:3...原创 2018-12-08 10:36:36 · 1415 阅读 · 1 评论 -
利用Hadoop自带脚本编写一个一次启动集群的所有进程的脚本
准备工作,集群机器之间相互ssh免密登录集群脚本注意脚本的权限和文件格式(若不会可参考本人以前的脚本问题的博客)开启集群 start-jiqun#!/usr/bin/env bashecho "开启hdfs"ssh hadoop01 "/home/hadoop/install/hadoop-2.5.0-cdh5.3.6/sbin/start-dfs.sh"echo "开启历史服务器"...原创 2018-11-28 19:46:07 · 924 阅读 · 0 评论 -
Hadoop的MapReduce求共同好友
数据:前面是用户,后面是用户有哪些好友A:B,D,E,H,I,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:B,C,D,E,O,MG:Q,W,A,C,E,OH:A,C,E,D,OI:A,OJ:B,PK:A,C,DL:D,E,FM:E,F,GO:A,H,I,J分析:以第一行数据为例先求出那些人是A的好友比如B和D都有A的好...原创 2018-12-01 17:23:44 · 281 阅读 · 0 评论 -
Hadoop历史服务器配置以及日志管理
前言:先说一下配历史服务器的作用可以帮助我们查看hdfs后hue上的日志,更好的分析和解决问题先在Hadoop的配置文件mapred-site.xml中添加下面内容:<property><name>mapreduce.jobhistory.address</name><value>node01:10020</value>...原创 2018-11-27 21:17:09 · 216 阅读 · 0 评论 -
万能的最简单的利用MapReduce程序去重
map端:package distinct;import java.io.IOException;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapre...原创 2018-11-29 22:08:13 · 420 阅读 · 0 评论 -
Flink入门必学,你还不知道?
今天主要围绕Flink是什么?能干什么?为什么要用它这几点来谈谈我的一些看法整体结构:是什么:Flink 是一个框架和分布式处理引擎,是一个用于对无界和有界数据流进行有状态计算的框架Flink设计为在所有常见的集群环境中运行,以内存速度和任何规模执行计算。能干什么:任何类型的数据都是作为事件流产生的,数据可以作为有界流和无界流处理有界流:只要开始便不会结束,处理是通常要求以特...原创 2018-11-24 21:36:12 · 696 阅读 · 0 评论 -
Hadoop集群之shell -----脚本xcall,和同步脚本xsync用法(二)
在上一篇文章中我们提到了两个脚本,一般会出现一些问题在执行xcall jps会不能用此时有两个问题1、权限问题我们直接赋最高权限编写完成chmod 777 xcall 赋予可执行权限2、要想使用xcall jps 还需要给jps建立软连接命令如下每台机器都要执行ln -s -f /usr/local/jdk1.8.0.152/bin/jps /usr/local/bin/j...原创 2018-11-17 21:33:24 · 1240 阅读 · 1 评论 -
Hadoop集群之shell -----脚本xcall,和同步脚本xsync(一)
xcall脚本#!/bin/bashparams=$@i=1for (( i=1 ; i &lt;= 3 ; i = $i + 1 )) ; do echo ============= hadoop0$i $params ============= ssh hadoop0$i "$params"done同步脚本#!/bin/bash#1 获取输入参数个数,如果没有...原创 2018-11-17 21:12:33 · 488 阅读 · 0 评论