
Hadoop
文章平均质量分 90
王小雷-多面手
简单而真诚。专注大数据,机器学习,人工智能的多面手,对新兴的技术与知识充满了好奇与渴望!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hadoop YARN学习之Hadoop框架演进历史简述
Hadoop YARN学习之Hadoop框架演进历史简述(1)1. Hadoop在其发展的过程中经历了多个阶段:阶段0:Ad Hoc集群时代 标志着Hadoop的起源,集群以Ad Hoc、单用户方式建立阶段1:Hadoop on Demand(HOD) 是进化过程中的下一个阶段,以一种通用系统的形式,在商用硬件组成的共享集群上提供和管理私有Hadoop MapReduce和HDFS实例。阶原创 2016-01-21 15:54:41 · 1251 阅读 · 0 评论 -
“卜算子·大数据”学习系列原创文章、源码——从入门到精通
大数据 big-data 转载请注明出处与作者信息(如下)原创作者:王小雷作品出自:https://github.com/wangxiaoleiAI/big-data联系邮件:wov@outlook.comStar Fork Follow 评论 issues项目地址 https://github.com/wangxiaoleiAI/machine-learning...原创 2018-06-14 10:26:01 · 1331 阅读 · 1 评论 -
1.1 Virtualbox虚拟机快速入门
1.1 Virtualbox虚拟机快速入门virtualbox安装、配置、安装Ubuntu 18.04过程详细记录 开源地址 https://github.com/wangxiaoleiAI/big-data卜算子·大数据 目录1.1.1 关闭BIOS安全启动项、开启BIOS中允许CPU虚拟选项、下载virtualbox、下载Linux Ubuntu 18.04镜像1...原创 2018-06-14 12:35:54 · 3513 阅读 · 0 评论 -
1.2 linux使用技巧快速入门
1.2 linux使用技巧快速入门 开源地址 https://github.com/wangxiaoleiAI/big-data卜算子·大数据 目录为大数据知识做基础准备,首先要对Linux有初步的了解,接下来就讲解一些Linux常用的技巧命令。1.2.1 debian/ubuntu常用命令# 更新软件sudo apt updatesudo apt upgrade...原创 2018-06-14 13:16:34 · 592 阅读 · 0 评论 -
2.1 Hadoop伪分布式安装部署
2.1 Hadoop伪分布式安装部署 开源地址 https://github.com/wangxiaoleiAI/big-data卜算子·大数据 目录 开源“卜算子·大数据”系列文章、源码,面向大数据(分布式计算)的编程、应用、架构——每周更新!Linux、Java、Hadoop、Spark、Sqoop、hive、pig、hbase、zookeeper、Oozie、flink…et...原创 2018-06-15 08:42:58 · 1411 阅读 · 0 评论 -
2.3 基于IDEA开发第一个MapReduce大数据程序WordCount
2.3 基于IDEA开发第一个MapReduce大数据程序WordCount 开源地址 https://github.com/wangxiaoleiAI/big-data卜算子·大数据 目录 开源“卜算子·大数据”系列文章、源码,面向大数据(分布式计算)的编程、应用、架构——每周更新!Linux、Java、Hadoop、Spark、Sqoop、hive、pig、hbase、z...原创 2018-06-24 15:02:22 · 4503 阅读 · 0 评论 -
卜算子·大数据简介 一个开源、成体系的大数据学习教程
第1章 卜算子·大数据简介“卜算子·大数据”,是一个开源、成体系的大数据学习教程。从基础数据采集到顶层架构设计。最新梳理出大数据知识体系共计12个部分,42个章节。每周日更新,金九银十际,助你上青天!本章主要内容:特点“卜算子·大数据”架构项目更新写作目的原创声明1.1 特点* 关于 * ——“卜算子·大数据”,其中“卜算子”是中国诗词中唯一包含计算、占卜、...原创 2018-06-29 11:50:52 · 2592 阅读 · 0 评论 -
2.4 Hadoop伪分布式快速部署
Hadoop伪分布式快速部署“卜算子·大数据”一个开源、成体系的大数据学习教程。——每周日更新本节主要内容:依赖安装、免密登录安装Java伪分布式——Hadoop MapReduce配置配置Hadoop环境变量伪分布式——Hadoop MapReduce开启伪分布式——YARN配置伪分布式——YARN开启Hadoop 开启历史查看服务Hadoop 停止伪分布式集群命令...原创 2018-07-08 16:32:49 · 639 阅读 · 0 评论 -
4.1 数据存储格式
4.1 数据存储格式“卜算子·大数据”一个开源、成体系的大数据学习教程。——每周日更新Avro是一个序列化系统。特点:支持丰富的数据结构紧凑、快速的二进制数据格式持久化存储的容器文件远程过程调用(RPC)动态语言的简单集成下载 https://mirrors.tuna.tsinghua.edu.cn/apache/avro/avro-1.8.2/java/avro...原创 2018-07-08 16:43:33 · 606 阅读 · 0 评论 -
4.2 ApacheAvro编程Java示例
4.2ApacheAvro编程Java示例“卜算子·大数据”一个开源、成体系的大数据学习教程。——每周日更新本节主要内容:创建Gradle项目、创建Avro模式使用Avro命令行工具生成Java代码不使用Avro命令行工具生成Java代码4.2.1 创建Gradle项目、创建Avro模式 Github源码创建Gradle项目 添加Avro依赖compile gr...原创 2018-07-08 16:47:05 · 1240 阅读 · 0 评论 -
12.4 Cassandra数据模型
12.4 Cassandra数据模型“卜算子·大数据”一个开源、成体系的大数据学习教程。——每周日更新没有JOIN操作Cassandra没有表的连接操作,跟关系型数据库设计相比最好的方式是,反(非)规范化设计,设计为两个表连接后的结果表。没有参照完整性(外键) 虽然表中可以存储别的表的ID,但是没有级联删除的操作,所以没有外键操作。非规范化的设计在Cassandra数据库...原创 2018-07-08 17:08:05 · 514 阅读 · 0 评论 -
1.3 virtualbox高级应用构建本地大数据集群服务器
1.3 virtualbox高级应用构建本地大数据集群服务器 开源地址 https://github.com/wangxiaoleiAI/big-data卜算子·大数据 目录 开源“卜算子·大数据”系列文章、源码,面向大数据(分布式计算)的编程、应用、架构——每周更新!Linux、Java、Hadoop、Spark、Sqoop、hive、pig、hbase、zookeeper...原创 2018-06-20 13:29:09 · 1434 阅读 · 0 评论 -
本地idea开发mapreduce程序提交到远程hadoop集群执行
通过idea开发mapreduce程序并直接run,提交到远程hadoop集群执行mapreduce。简要流程:本地开发mapreduce程序–>设置yarn 模式 --> 直接本地run–>远程集群执行mapreduce程序;完整的流程:本地开发mapreduce程序——> 设置yarn模式——>初次编译产生jar文件——>增加 job.setJar(&quo原创 2018-11-22 16:02:10 · 4788 阅读 · 2 评论 -
2.2 Hadoop3.1.0完全分布式集群配置与部署
2.2 Hadoop3.1.0完全分布式集群配置与部署 开源地址 https://github.com/wangxiaoleiAI/big-data卜算子·大数据 目录 开源“卜算子·大数据”系列文章、源码,面向大数据(分布式计算)的编程、应用、架构——每周更新!Linux、Java、Hadoop、Spark、Sqoop、hive、pig、hbase、zookeeper、Oo...原创 2018-06-20 20:50:19 · 4819 阅读 · 1 评论 -
spark (java API) 在Intellij IDEA中开发并运行
概述:Spark 程序开发,调试和运行,intellij idea开发Spark java程序。 分两部分,第一部分基于intellij idea开发Spark实例程序并在intellij IDEA中运行Spark程序.第二部分,将开发程序提交到Spark local或者hadoop YARN集群运行。Github项目源码图1,直接在intellij IDEA(社区版)中开发调试,直接run。图2原创 2017-02-07 20:50:39 · 18954 阅读 · 1 评论 -
Hadoop YARN学习之核心概念(2)
Hadoop YARN学习之核心概念(2)1. Hadoop 2.X YARN引入的新服务1.1 新的ResourceManager纯碎作为资源调度器,是集群资源的唯一仲裁者; 1.2 用户应用程序(包括MapReduce作业),通过一个新的ApplicationMaster组件请求一定的资源,与Resource协商; 1.3 从而在集群中创建该应用的Container;2. YARN的引入不会原创 2016-01-21 16:20:56 · 1007 阅读 · 0 评论 -
Hadoop YARN学习之组件功能简述(3)
Hadoop YARN学习之组件功能简述(3)1. YARN的三大组件功能简述:ResourceManager(RM)是集群的资源的仲裁者, 它有两部分:一个可插拔的调度器和一个ApplicationManager,用于管理集群中的用户作业。NodeManager,位于每个节点上,管理该节点上用户作业和工作流。ApplicationMaster,用户作业生命周期管理者。 是用户应用程序驻留原创 2016-01-21 16:55:26 · 1535 阅读 · 0 评论 -
Hadoop YARN学习之监控集群监控Nagios(4)
doop YARN学习之监控集群监控Nagios(4)1. Nagios是一个流行的开源监控工具,可以用来监控Hadoop集群。2. 监控基本的Hadoop服务调试好脚本后命名为chek_resource_manager.sh,并把它放在Nagios的插件目录中。加载Nagios插件向hadoop-cluster.cfg添加如下信息 define command{ com原创 2016-01-21 17:24:39 · 2752 阅读 · 2 评论 -
Hadoop YARN学习监控JVM和实时监控Ganglia、Ambari(5)
Hadoop YARN学习监控JVM和实时监控Ganglia、Ambari(5)1.0 监控ResourceManager进程Java虚拟机中堆空间的特定部分。jstat工具,在JDK的bin目录,可以显示大量JVM统计信息。1.1 JVM分析一个Java虚拟机(JVM)进程被分为3个区(代),具体分为年轻代(young generation)、年老代(tenured generation)和原创 2016-01-21 17:26:04 · 3458 阅读 · 0 评论 -
Hadoop YARN学习之重要术语总结(6)
Hadoop YARN学习之重要术语总结(6) - SLA服务等级 - RM(ResourceManager) - AM(ApplicationMaster) - NM(NodeMaster) - MPI(Message Passing Interface) - FIFO(First In First Out) - ACL访问控制列表 - CLC(Container Launch C原创 2016-01-21 17:36:02 · 1015 阅读 · 0 评论 -
批量部署Hadoop集群环境(1)
一键批量部署Hadoop环境(1)1. 项目简介:前言:云火的一塌糊涂,加上自大二(两年前)就跟随一位教授做大数据项目,所以很早就产生了兴趣,随着知识的积累,虚拟机已经不能满足了,这次在服务器上以生产环境来部署Hadoop。已经搭建完毕,故而写出教程。不要问为什么分享,开源精神。问题:看到Hadoop部署在一些资料上很是繁琐,一些简单的部署方法只是玩具,根本不能满足企业的部署条件,一台台服务器去原创 2016-02-16 13:43:42 · 3000 阅读 · 0 评论 -
centos 7下Hadoop 2.7.2 伪分布式安装
centos 7 下Hadoop 2.7.2 伪分布式安装,安装jdk,免密匙登录,配置mapreduce,配置YARN。详细步骤如下:原创 2016-04-03 09:08:31 · 10257 阅读 · 12 评论 -
Windows下安装Hadoop
Windows10下安装Hadoop2.6,Windows10下编译64位Hadoop2.x。详细记录了Windows10版本下对Hadoop的编译、安装步骤,以及相关包或者软件下载安装过程。不需要在Cygwin下安装Hadoop,官方也不推荐使用Cygwin。 Hadoop版本支持情况:Hadoop 2.2版本起包括Windows的原生支持。截至2014年一月份,官方的Apache Hadoo原创 2016-07-08 17:18:48 · 30987 阅读 · 5 评论 -
Spark应用(app jar)发布到Hadoop集群的过程
记录了Spark,Hadoop集群的开启,关闭,以及Spark应用提交到Hadoop集群的过程,通过web端监控运行状态。1.绝对路径开启集群(每次集群重启,默认配置的hadoop集群中tmp文件被清空所以需要重新format) 我的集群安装位置是/opt/hadoop下,可以根据自己路径修改。/opt/hadoop/bin/hdfs namenode -format/opt/hadoop/sbi原创 2016-07-19 16:13:03 · 2803 阅读 · 0 评论 -
Spark企业级应用开发和调优
Spark项目编程优化历程记录,主要介绍了Spark企业级别的开发过程中面临的问题和调优方法。包含合理分配分片,避免计算中间结果(大数据量)的collect,合理使用map,优化广播变量等操作,降低网络和磁盘IO,提高计算效率。原创 2016-09-05 13:22:19 · 1932 阅读 · 0 评论 -
超详细从零记录Hadoop2.7.3完全分布式集群部署过程
超详细从零记录Ubuntu16.04.1 3台服务器上Hadoop2.7.3完全分布式集群部署过程。包含,Ubuntu服务器创建、远程工具连接配置、Ubuntu服务器配置、Hadoop文件配置、Hadoop格式化、启动。(首更时间2016年10月27日)原创 2016-10-27 16:12:29 · 44819 阅读 · 16 评论 -
Ubuntu16.04安装Hadoop2.6+Spark1.6+开发实例
Ubuntu16.04安装Hadoop2.6+Spark1.6,并安装python开发工具Jupyter notebook,通过pyspark测试一个实例,調通整个Spark+hadoop伪分布式开发环境。主要内容:配置root用户,配置Hadoop,Spark环境变量,Hadoop伪分布式安装并测试实例,spark安装并通过Jupter notebook进行开发实例,配置Jupter notebo原创 2016-07-19 13:27:49 · 15385 阅读 · 1 评论 -
什么是雪花模型
1.什么是雪花模型 Snowflake schema雪花模型是多维数据库中的表的逻辑排列方式,使得实体关系图类似于雪花形状。雪花模型由连接到多个维度的集中式事实表组成。“Snowflaking”是一种在星型模型中规范化维度表的方法。 当它沿着所有维度表完全标准化时,结果结构类似于雪花,其中事实表位于中间。雪花背后的原理是通过删除低基数属性和形成单独的表来对维度表进行规范化。雪花模型类似于星型模...原创 2019-02-12 15:27:20 · 10886 阅读 · 0 评论