
Hadoop
文章平均质量分 81
疯狂学习的白菜
途虽远,我必达!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hadoop基础(二) --- 远程多节点拷贝、删除、浏览、执行,配置windows host,安全模式,快照,回收站,配额
【xcp.sh】远程拷贝:实现文件和文件夹在所有节点上的复制-------------------------------------------------------------------------------------------##################x copy################## argu < 1 , no argsif [ $#...原创 2018-08-10 17:49:24 · 924 阅读 · 0 评论 -
Hadoop复习(五) --- Map多输入格式,全排序,二次排序,MR作业流程,作业链条化Chain
一、Map多输入格式问题------------------------------------------------- 1.设置输入格式为:TextInputFormat.class,SequenceFileInputFormat.class MultipleInputs.addInputPath(job,new Path(args[0]), TextInputFor...原创 2018-09-03 15:21:11 · 532 阅读 · 0 评论 -
Hadoop复习(六) --- 使用DBWriterable完成同MySql的交互,机架感知,配置高可用HA
一、使用DBWriterable完成同MySql的交互------------------------------------------------------------ 0.pom.xml中增加mysql驱动 <dependency> <groupId>mysql</groupId> ...原创 2018-09-05 16:30:30 · 330 阅读 · 0 评论 -
Hadoop复习(四) --- 远程调试,Maven集成Ant,centos上安装snappy和lzo,SequenceFile,MapFile,combine
一、远程调试-------------------------------------------- 1.设置服务器java vm的-agentlib:jdwp选项. [server] //windwos //set JAVA_OPTS=%JAVA_OPTS% -agentlib:jdwp=transport=dt_socket,addre...原创 2018-09-01 17:59:30 · 269 阅读 · 0 评论 -
Hadoop基础(八) --- 分布式计算MapReduce案例,Windows 测试MR作业的异常解决,MR作业的流程分析
一、分布式计算MapReduce-------------------------------------------------------- 1.目的:取出历年来的最高气温(使用1901和1902数据源) 2.Map阶段 map(k,v)函数: 对输入数据的每一行进行map处理,需要自己编程实现,k--行号,v--数据 3.Redu...原创 2018-08-25 19:41:29 · 362 阅读 · 0 评论 -
Hadoop基础(十一) --- RPC远程调用过程分析
一、RPC远程调用过程分析--------------------------------------------- 1.定义协议(接口) //这个接口是所有RPC的父接口 public interface VersionedProtocol { public long getProtocolVersion(...原创 2018-08-29 16:04:16 · 242 阅读 · 0 评论 -
Hadoop复习(三) --- Intellij Idea 配置,hadoop 常用指令,节点的服役和退役,运行本地MR作业流程,打jar包,切片计算方式
一、Intellij Idea-------------------------------------------- 1.下载idea: https://www.jetbrains.com/idea/download/download-thanks.html 2.安装idea 3.获取在线注册码:http://idea.lanyus.com/ 或者直...原创 2018-08-31 16:22:56 · 336 阅读 · 1 评论 -
Hadoop复习(二) --- Centos下安装和配置hadoop的伪分布式和完全分布式
一、安装jdk-------------------------------------------------------------------------------------------- 1.安装jdk a)下载jdk-8u65-linux-x64.tar.gz b)tar开 $>su centos ; cd ~...原创 2018-08-31 16:21:59 · 230 阅读 · 0 评论 -
Hadoop基础(十) ---split切片分析,counter,开启历史服务器,远程调试,Word Count,YARN组成框架和工作流程分析
一、输入的split,输入切分-------------------------------------------- 1.获取切分块单元size,一般取自定义最小值和blocksize中的最小值 long splitsize = Math.max(minSize, Math.min(maxSize, blockSize)); 其中,minsize = m...原创 2018-08-28 19:22:31 · 423 阅读 · 0 评论 -
Hadoop基础(七) --- hadoop的串行化和反串行化,BytesWritable,NullWritable,ObjectWritable,MapWri
一、hadoop的串行化和反串行化---------------------------------------------------- @Test public void ts01() throws Exception { ByteArrayOutputStream baos = new ByteArrayOutputStream(); ...原创 2018-08-24 11:06:35 · 495 阅读 · 0 评论 -
Hadoop基础(六) --- hadoop的压缩算法,安装LZO,安装snappy,安装lz4,各种压缩算法的对比测试
一、压缩算法-------------------------------------------------------- 1.空间优先 -9 、速度优先 -1 2.压缩算法 "org.apache.hadoop.io.compress.DeflateCodec" "org.apache.hadoop.io.compress.De...原创 2018-08-23 19:04:01 · 2279 阅读 · 1 评论 -
Hadoop基础(九) --- Ubuntu和Eclipse运行MR作业,win安装hadoop,Ant脚本实现快速打包,MR底层通信原理分析流程图
一、combiner --------------------------------- 降低网络负载 二、Ubuntu Hadoop 运行分布式作业----------------------------------- 1.启动hadoop集群 start-dfs.sh start-yarn.sh 注意:注...原创 2018-08-27 11:17:31 · 279 阅读 · 0 评论 -
Hadoop基础(五) --- Ubuntu 下安装maven,windows上安装maven,eclipse上配置maven ,构建本地软件仓库
一、Ubuntu 下安装maven(并修改使用阿里云仓库地址)---------------------------------------------------------- 1.apache项目管理软件,解决项目的依赖关系 2.下载apache-maven 3.tar 开,移动到 /soft下,并创建符号链接 4.配置...原创 2018-08-22 23:25:14 · 266 阅读 · 0 评论 -
Hadoop基础(一) --- 大数据4V特征、Hadoop 简介、模块、安装、配置独立模式,伪分布模式和完全分布式
[大数据4V特征]----------------------------------------------------- 1.Volum : 体量大 2.velocity: 速度快 3.variaty: 样式多 4.value: 价值密度低 [分布式]----------------------------...原创 2018-08-08 18:25:23 · 2567 阅读 · 0 评论 -
Hadoop基础(三) --- oiv、oev、通过URL访问hdfs以及FileSyatem-- Hadoop的文件系统的常用API
【oiv】offline image viwer --------------------------------------------------------------1.用于查看Hadoop fsimage 2.语法 $> hdfs oiv -i inputfile -o outputfile -P process3.inputfile: 要查看的fsimage文...原创 2018-08-12 14:04:04 · 3243 阅读 · 0 评论 -
Hadoop基础(四) --- HA介绍,HA架构,部署HA,Set Rack Aware 设定机架感知,distcp, archive,数据校验和
一、HA------------------------------------------------------- 1.high availability 高可用性。持续服务的能力 2.多台主机之间进行集群配置 3.failover 容灾 4.single point of failure 单点故障 5.nn1 + nn2 6.解决方案1:N...原创 2018-08-14 16:37:15 · 652 阅读 · 0 评论 -
Hadoop复习(七) --- hive ,MR作业实现关联查询join select ,自定义文件输入格式实现整合小文件成一个文件
一、hive 数据仓库,在线分析处理------------------------------------------------ 1.数据仓库 OLAP:在线分析处理,批量计算,实时性不好,延迟高 数据库 OLTP:在线事务处理,批量处理,实时性好,延迟低二、MR作业实现关联查询join select--------------------------------...原创 2018-09-07 17:29:53 · 334 阅读 · 0 评论