
Hadoop
kokopop007
高处不胜寒
展开
-
HDFS概述
HDFS概述1)分布式2)commodity hardware 硬件3)fault-tolerant 容错4)large data sets分布式文件系统 vs 普通文件系统(单机)分布式文件系统能够横跨N个机器HDFS前提和设计目标(整点掌握四点##)一.Hardware Failure 硬件错误##each storing p...原创 2019-07-23 18:13:56 · 217 阅读 · 0 评论 -
Hadoop电商项目浏览量统计实战代码重构
上篇文章存在的问题:每个MR作业都去全量读取待处理的原始日志,如果数据流很大,疯掉ETL:全量数据不方便直接进行计算,最好是晋西一步处理后在进行想要的维度统计分析解析出你要的字段:Ip==》城市信息去除一些你不需要的字段:不需要的字段太多了ip/time/url/page_id/country/provine/city第一步import com.imooc.bigdata.hadoop...原创 2019-08-12 18:42:47 · 723 阅读 · 0 评论 -
Hadoop电商项目浏览量统计实战
项目需求&统计页面的浏览量&统计各个省份的浏览量&统计页面的访问量一.数据处理流程及技术架构1.统计页面的浏览量select count(1) from xxx,count 把每一行作出一个固定的KEY,value的赋值为1 project mr PVStatApp2.统计各个省份的浏览量select province count(1) from xx...原创 2019-08-12 18:14:53 · 1535 阅读 · 7 评论 -
看看你所理解的资源调度框架Yarn
&YARN产生背景MapReduce1.x存在的问题MapReduce架构图:1.master/slave架构:JobTracker/TaskTrackerJobTracker:单点,仅仅只能够支持MapReduce作业2,资源利用率,所有的计算框架运行在一个集群中,共享一个集群的资源,按需分配YARN概述&Yet Another Resource Negotiat...原创 2020-03-21 23:02:37 · 382 阅读 · 0 评论 -
Hadoop WordCount代码详解及升级Combiner操作
一.是创建Mapper类import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException...原创 2019-08-07 16:36:46 · 484 阅读 · 0 评论 -
Hadoop自定义复杂类型流量统计wordcount详解
需求:统计每个手机上行流量和下行流量,总的流量和(上行流量+下行流量)1.数据文件:Access.log1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 24 27 2481 24681 2001363157995052 13826544101 5C-0E-8B-C7-F1-...原创 2019-08-09 17:08:46 · 385 阅读 · 0 评论 -
Hadoop分布式计算框架MapReduce
mapreduce概述&源自于Google的MapReduce论文,论文发表于2004年12月&Hadoop MapReduce是Google MapReduce的克隆版&MapReduce优点:海量数据李先处理&易开发&易运行&MapReduce缺点:实时流式计算Hadoop MapReduce is a software framewo...原创 2019-08-07 15:52:40 · 224 阅读 · 0 评论 -
使用HDFS API完成HDFS文件系统上的文件的词频统计代码重构!
使用HDFS API完成HDFS文件系统上的文件的词频统计代码重构!上篇文章说到硬编码在正常的工作当中是非常忌讳的所以我们必须要重构代码,变成可配置编码!1.新建一个资源包新建wc.properties文件INPUT_PATH=/hdfsapi/test/hello.txtOUTPUT_PATH=/hdfsapi/outputOUTPUT_FILE=wc.outHDFS_URI=hdf...原创 2019-07-27 17:15:46 · 420 阅读 · 0 评论 -
使用HDFS API完成HDFS文件系统上的文件的词频统计(wordcount)
使用HDFS API完成HDFS文件系统上的文件的词频统计(wordcount)词频统计:wordcount如两个文件:/path/1.txthello world hello(注意是tab分割还是space分割)/path/2.txthello world hello结果:==> (hello,4) (world,2)将统计完的结果输出到HDFS上去。1.首先编写整体框架...原创 2019-07-27 17:02:17 · 1181 阅读 · 0 评论 -
HDFS读写数据流程图
HDFS的读数据流程:HDFS写数据流程:原创 2019-07-27 16:45:57 · 924 阅读 · 0 评论 -
HDFS副本摆放策略&checkpoint机制&safemode模式
一.HDFS Replica Placement policy如果副本摆放的机制不好的话,在计算的过程当中,很大可能会数据的传输,这样对于带宽,磁盘的IO影响是很大的。HDFS’s placement policy is to put one replica on the local machine if the writer is on a datanode, otherwise on a ...原创 2019-07-27 16:33:33 · 447 阅读 · 0 评论 -
HDFS 常用的API概述
HDFS APIimport org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*;import org.apache.hadoop.io.IOUtils;import org.apache.hadoop.util.Progressable;import org.junit.After;import or...原创 2019-07-25 18:47:41 · 255 阅读 · 0 评论 -
搭建第一个maven项目
搭建第一个maven项目1.首先新建一个maven项目(idea)2.填写创建id3.配置maven因为我自身本地有配置好的maven,所以直接导入4.配置pom.xml文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xml...原创 2019-07-25 15:59:49 · 150 阅读 · 0 评论 -
Hadoop单节点环境搭建
Hadoop单节点环境搭建使用的Hadoop相关版本:CDHCDH相关软件包下载地址:http://archive.cloudera.com/cdh5/cdh/5/Hadoop使用版本:hadoop-2.6.0-cdh5.15.1(版本一定要相互对应)Hadoop下载:wget http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5...原创 2019-07-24 18:30:12 · 431 阅读 · 0 评论 -
什么是hadoop?
什么是hadoop?(学习最好的方式个人建议就是看官方文档)官网概述:The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing.The Apache Hadoop software library is a framework that all...原创 2019-07-17 14:43:39 · 359 阅读 · 0 评论 -
大数据项目架构-电信日志分析
项目名称:电信日志分析系统项目描述:电信日志分析系统是以电信用户上网所产生的数据进行分析和统计计算,数据主要来源于用户的上网产生的访问日志和安全日志,通过Hadoop大数据平台完成日志的入库,处理,查询,实时分析,上报等功能,达到异常IP的检测,关键词过滤,违法违规用户的处理等,整个项目数据量在1T-20T左右,集群数量在10台到100台。项目架构分析:*数据采集层:ftp scoket方...原创 2019-08-29 16:55:09 · 1837 阅读 · 0 评论