
大数据实践
文章平均质量分 50
大数据技术栈以及技术实践
小七在路上
素数
展开
-
Hadoop学习笔记—20.网站日志分析项目案例(一)项目介绍
网站日志分析项目案例(一)项目介绍:当前页面网站日志分析项目案例(二)数据清洗:https://blog.youkuaiyun.com/qq_33734225/article/details/79668375网站日志分析项目案例(三)统计分析:https://blog.youkuaiyun.com/qq_33734225/article/details/79668404一、项目背景与数据情况1.1 项目来源 本次要实践...转载 2018-03-23 15:57:40 · 484 阅读 · 0 评论 -
Hadoop学习笔记—20.网站日志分析项目案例(二)数据清洗
网站日志分析项目案例(一)项目介绍:https://blog.youkuaiyun.com/qq_33734225/article/details/79668335网站日志分析项目案例(二)数据清洗:当前页面网站日志分析项目案例(三)统计分析:https://blog.youkuaiyun.com/qq_33734225/article/details/79668404一、数据情况分析1.1 数据情况回顾 该论坛数据有...转载 2018-03-23 15:53:13 · 466 阅读 · 0 评论 -
Hadoop学习笔记—20.网站日志分析项目案例(三)统计分析
网站日志分析项目案例(一)项目介绍:https://blog.youkuaiyun.com/qq_33734225/article/details/79668335网站日志分析项目案例(二)数据清洗:https://blog.youkuaiyun.com/qq_33734225/article/details/79668375网站日志分析项目案例(三)统计分析:当前页面一、借助Hive进行统计1.1 准备工作:建立分区表...转载 2018-03-23 15:43:01 · 444 阅读 · 1 评论 -
Hadoop之道--MapReduce简单应用倒排索引(InversedIndex)
Hadoop版本:1.1.2集成开发平台:Eclipse SDK 3.5.1原创作品:http://blog.youkuaiyun.com/yming0221/article/details/9024419倒排索引(Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。...转载 2018-03-23 15:32:04 · 405 阅读 · 0 评论 -
ResourceManager和NodeManager
ResourceManager 是基于应用程序对资源的需求进行调度的 ; 每一个应用程序需要不同类型的资源因此就需要不同的容器。ResourceManager 是一个中心的服务,它做的事情是调度、启动每一个 Job 所属的 ApplicationMaster、另外监控 ApplicationMaster 的存在情况。NodeManager 是每一台机器框架的代理,是执行应用程序的容器,监控应用程序...原创 2018-03-22 15:44:39 · 9010 阅读 · 0 评论 -
Hadoop高可用配置详解
本文主要介绍HDFS HA特性,以及如何使用QJM(Quorum Journal Manager)特性实现HDFS HA。背景HDFS集群中只有一个Namenode,这就会引入单点问题;即如果Namenode故障,那么这个集群将不可用,直到Namenode重启或者其他Namenode接入。有两种方式会影响集群的整体可用性:意外的突发事件,比如物理机器crash,集群将不可用,直到管理员重启Name...原创 2018-03-22 15:11:32 · 2630 阅读 · 0 评论