
大数据
大数据
慢熟的孩子
一个思想缓慢发育的孩子
展开
-
大数据概述
大数据技术变革 技术驱动数据量大存储:文件存储 ==> 分布式存储(拆分存储在多个机子,而且以副本存储)计算:单机 ==> 分布式计算网络:万兆数据库:关系型数据库 ==> NoSQL(HBase/Redies) 商业驱动结合公司业务创造价值大数据现存模式手握大数据,没有大数据思维(金融、政府)没有大数据,有大数据思维(I...原创 2019-07-28 11:27:08 · 156 阅读 · 0 评论 -
初识Hadoop
hadoop概述 Hadoop核心组件 hadoop优势 hadoop发展史 hadoop生态系统 hadoop发行版本的选择hadoop概述之hadoop名字的由来Doug Cutting(hadoop项目作者还是给一个棕黄色的大象样子的填充玩具的命名)reliable,scalable,distributed computing...原创 2019-07-29 11:22:46 · 191 阅读 · 0 评论 -
HDFS概念
HDFS前提:硬件错误每个机器只存储文件的部分数据,blocksize=128M,存放在不同的机器上的,由于容错,HDFS默认采用3个副本机制。Streaming data流式数据访问HDFS更多的考虑的是批处理,高的吞吐量,而不是数据访问的延时性Large Data sets大数据集HDFS能提供一个整体高的数据传输移动计算比移动数据更划算HDFS架构HDFS has a ...原创 2019-07-31 10:06:15 · 617 阅读 · 0 评论 -
hadoop部署
本人hadoop环境搭建:hadoop版本:CDHCDH相关软件包下载地址:http://archive.cloudera.com/cdh5/cdh/5/hadoop使用版本:hadoop-2.6.0-cdh5.15.1hive使用版本:hive-1.1.0-cdh5.15.1使用命令wget http://archive.cloudera.com/cdh5/cdh/5/hadoop...原创 2019-07-31 14:53:29 · 204 阅读 · 0 评论 -
HDFS之防火墙
本人在阿里云完成好hadoop部署后,访问hdfs文件,就是ip地址+50070端口。结果发现老是打不开。结果发现,需要在阿里云的安全组需要添加访问此端口的权限。之后,查看你防火墙状态的命令sudo firewall-cmd --state关闭防火墙sudo systemctl stop firewalled.service...原创 2019-08-03 15:58:29 · 522 阅读 · 0 评论 -
hadoop命令行操作
hadoop命令行操作Usage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-checksum <src> ...] [-chgrp...原创 2019-08-03 16:37:41 · 582 阅读 · 0 评论 -
HDFS之创建文件夹代码
import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import java.net.URI;/** * 使用Java API操作HDFS文件系统 */public class HDFSApp { ...原创 2019-08-06 10:37:29 · 1504 阅读 · 0 评论 -
HDFS之Julit封装
import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.junit.After;import org.junit.Before;import org.junit.Test;import j...原创 2019-08-06 10:56:45 · 185 阅读 · 0 评论 -
HDFS之查看内容
import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IOUtil...原创 2019-08-06 11:14:49 · 507 阅读 · 0 评论 -
HDFS之创建内容
import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import org.apache.hadoop.fs.FSDataOutputStream;import org.apache.hadoop.fs.FileSystem;import org.apache.ha...原创 2019-08-06 11:23:31 · 133 阅读 · 0 评论 -
HDFS之文件副本系数
import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import org.apache.hadoop.fs.FSDataOutputStream;import org.apache.hadoop.fs.FileSystem;import org.apache.ha...原创 2019-08-06 12:11:22 · 571 阅读 · 0 评论 -
hdfs之copyFromLocalFile
package com.imooc.bigdata.hadoop.hdfs;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*;import org.apache.hadoop.io.IOUtils;import org.apache.hadoop.util.Progressable;imp...原创 2019-08-10 10:08:44 · 7375 阅读 · 0 评论 -
hdfs之带进度的上传大文件
import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*;import org.apache.hadoop.io.IOUtils;import org.apache.hadoop.util.Progressable;import org.junit.After;import org.junit.Be...原创 2019-08-10 10:31:04 · 2046 阅读 · 1 评论 -
hdfs之下载文件代码
import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*;import org.apache.hadoop.io.IOUtils;import org.apache.hadoop.util.Progressable;import org.junit.After;import org.junit.Be...原创 2019-08-10 16:58:00 · 247 阅读 · 0 评论 -
在HDFSweb界面下载文件
有一些小伙伴,在搭建好的hdfs:50070的web界面想要下载文件,可是下载不成功,出现了找不到ip地址的问题。这时候,我们就疑惑,我们明明在/etc/hosts文件写下了我的地址和名称的映射的呀。别急,这是我们的客户端的问题,我们需要在客户端配置一下文件,我这是win10电脑,如果大家是其他的系统的客户端,应该没有问题。我们需要在系统盘瞎相应的目录里修改文件,添加linux中/etc/h...原创 2019-08-10 17:07:16 · 2635 阅读 · 5 评论 -
HDFS之列出文件夹下所有内容
import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*;import org.apache.hadoop.io.IOUtils;import org.apache.hadoop.util.Progressable;import org.junit.After;import org.junit.Be...原创 2019-08-12 11:02:37 · 3327 阅读 · 0 评论 -
hdfs之递归列出文件夹所有内容
import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*;import org.apache.hadoop.io.IOUtils;import org.apache.hadoop.util.Progressable;import org.junit.After;import org.junit.B...原创 2019-08-12 11:14:51 · 2947 阅读 · 0 评论 -
HDFS之查看文件块内容
import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*;import org.apache.hadoop.io.IOUtils;import org.apache.hadoop.util.Progressable;import org.junit.After;import org.junit.Be...原创 2019-08-12 12:10:25 · 1002 阅读 · 0 评论 -
hdfs之删除文件
import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*;import org.apache.hadoop.io.IOUtils;import org.apache.hadoop.util.Progressable;import org.junit.After;import org.junit.Be...原创 2019-08-12 12:14:53 · 3235 阅读 · 0 评论 -
HDFS之利用API进行词频统计
HDFSWCApp01.javapackage com.imooc.bigdata.hadoop.hdfs;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*;import java.io.BufferedReader;import java.io.InputStreamReader;i...原创 2019-08-14 11:50:00 · 433 阅读 · 0 评论 -
HDFS之Replica Placement Policy
Replica Placement: The First Baby StepsThe placement of replicas is critical to HDFS reliability and performance. Optimizing replica placement distinguishes HDFS from most other distributed file syst...原创 2019-08-14 22:49:58 · 569 阅读 · 0 评论 -
HDFS之写数据流程
此图是HDFS之NN、DN之间写数据的流程图,面试会用到下面这张图是官网上写的原创 2019-08-14 23:27:00 · 98 阅读 · 0 评论 -
HDFS之读数据流程
原创 2019-08-15 00:02:23 · 99 阅读 · 0 评论 -
HDFS之Checkpoint
HDFS存储中NN的元数据管理机制元数据:HDFS的目录结构以及每个文件的BLOCK信息(id,副本系数、block存放1在哪个DN上)元数据存放在这是我配置的core-site.xml的文件这是本机的目录接下来产看此目录的文件列表其中edits_0000000000000000001-0000000000000000019为日志fsimage_0000000000000000...原创 2019-08-15 11:06:05 · 526 阅读 · 0 评论 -
HDFS之SaveMode
SafemodeOn startup, the NameNode enters a special state called Safemode. Replication of data blocks does not occur when the NameNode is in the Safemode state. The NameNode receives Heartbeat and Bloc...原创 2019-08-15 11:18:45 · 474 阅读 · 0 评论 -
MapReduce编程模型核心概念
MapReduce编程模型之执行步骤准备map处理的输入数据Mapper处理ShuffleReduce处理结果输出从宏观的角度来说,只要实现map和reduce就可以了,中间的shuffle不需要了解底层原理。我们先从底层代码开始了解Mapper.java/** * Licensed to the Apache Software Foundation (ASF) und...原创 2019-08-15 14:15:29 · 620 阅读 · 0 评论 -
词频统计之Mapper实现
package com.imooc.bigdata.hadoop.hdfs.mr.wc;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Ma...原创 2019-08-15 22:10:24 · 409 阅读 · 0 评论 -
词频统计之Reducer实现
package com.imooc.bigdata.hadoop.hdfs.mr.wc;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Re...原创 2019-08-15 22:35:23 · 223 阅读 · 0 评论 -
词频统计值Driver实现
package com.imooc.bigdata.hadoop.hdfs.mr.wc;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text;...原创 2019-08-15 23:16:18 · 118 阅读 · 0 评论 -
词频统计之本地运行
package com.imooc.bigdata.hadoop.hdfs.mr.wc;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text;...原创 2019-08-16 10:46:11 · 216 阅读 · 0 评论 -
YARN产生的背景
YARN产生背景mr1.x ==> mr2.x在生产中,大多数人使用mr2.xTaskTrack 会接受来自JobTracker的命令JobTracker:单点要是挂掉,所有客户端的作业全部提交不到集群上只能够支持mr作业所有的计算框架运行在一个集群中,共享一个集群的资源,按需分配...原创 2019-11-04 16:28:37 · 297 阅读 · 0 评论 -
YARN的概述
资源调度框架(Yet Another Resource Negotiator)通用的资源管理系统为上层应用提供统一的资源管理和调度The fundamental idea of YARN is to split up the functionalities of resource management and job scheduling/monitoring into separat...原创 2019-08-18 11:23:52 · 226 阅读 · 0 评论 -
YARN架构详解
Clinet、ResourceManager、NodeManager、ApplicationMastermaster/slave:RM/NMClinet:向RM提交任务,杀死任务ApplicationMaster:每个应用程序对应一个AM,AM向RM申请资源用于在NM上启动对应的Task,数据切分,为每个Task向RM申请资源(container),NodeManager通信,任务的监控N...原创 2019-08-18 11:50:32 · 407 阅读 · 0 评论 -
YARN环境部署
查看官网原创 2019-08-18 22:25:06 · 382 阅读 · 0 评论 -
提交案例到YARN上运行
其实在hadoop里面有丰富的测试案例可以提供给我们测试。在hadoop的share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0-cdh5.15.1.jar里面之后开始测试Hadoop jar hadoop-mapreduce-examples-2.6.0-cdh5.15.1.jar pi 2 3产看YARN界面,观看APP...原创 2019-08-18 22:48:57 · 434 阅读 · 0 评论 -
提交自定义开发的MR作业到YARN上运行
运行步骤mvn clean package -DskipTestswindow/Mac/Linux ==> Maven把编译出来的jar包以及测试数据上传到服务器上scp xxxx hadoop@hostname:directory把数据上传到HDFS执行作业到YARN UI上观察作业情况,到输出目录查看输出结果...原创 2019-08-19 11:58:06 · 388 阅读 · 0 评论 -
用户行为日志
在现在的互联网世界中,我们每一次访问互联网的轨迹都被记录在日志中。比如:有毒的抖音,火热的头条,万恶的淘宝这些热门的企业都采用了用户行文日志,通过大数据的数据处理,给你推荐你感兴趣的东西,让你根本停不下来的使用他们的产品。用户行文日志:每一次访问的行为(访问、搜索)产生的日志历史行为数据<==历史订单转化为推荐,订单的转换量/率比如:你在购物车里添加了手机,系统会给你推荐你可能...原创 2019-08-20 11:30:33 · 3361 阅读 · 0 评论 -
电商常用术语
电商的专业术语一、基础统计类1.浏览量(PV):店铺各页面被查看的次数。用户多次打开或刷新同一个页面,该指标值累加。2.访客数(UV):全店各页面的访问人数。所选时间段内,同一访客多次访问会进行去重计算。3.收藏量:用户访问店铺页面过程中,添加收藏的总次数(包括首页丶分类页和宝贝页的收藏次数)。4.浏览回头客:指前6天内访问过店铺当日又来访问的用户数,所选时间段内会进行去重计算。5.浏...原创 2019-08-20 12:06:21 · 9127 阅读 · 0 评论 -
数据处理流程图
原创 2019-08-20 21:17:22 · 4142 阅读 · 0 评论 -
浏览量统计功能实现
这是代码package project.mr;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.NullWritable;import org....原创 2019-08-20 21:52:29 · 2937 阅读 · 6 评论