
Hadoop
文章平均质量分 77
clypm
松弛的琴弦,永远奏不出时代的强音
展开
-
MapReduce编程(六) 排序
一、问题描述文件中存储了商品id和商品价格的信息,文件中每行2列,第一列文本类型代表商品id,第二列为double类型代表商品价格。数据格式如下:pid0 334589.41pid1 663306.49pid2 499226.8pid3 130618.22pid4 513708.8pid5 723470.7pid6 998579.14pid7 831682.84pid8 87723...转载 2018-03-05 14:55:06 · 1030 阅读 · 1 评论 -
HDFS的JAVA API客户端基本操作
前言HDFS命令基本格式:hadoop fs -cmd < args >ls 命令hadoop fs -ls /12列出hdfs文件系统根目录下的目录和文件hadoop fs -ls -R /12列出hdfs文件系统所有的目录和文件put 命令hadoop fs -put < local file > < hdfs file >12hdfs file的父...转载 2018-02-28 17:26:30 · 1898 阅读 · 2 评论 -
浅析MapReduce
一:需要的jar包:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=...原创 2018-03-01 15:18:23 · 431 阅读 · 0 评论 -
MapReduce编程(七)
一、问题描述任务要求–现有一批电话通信清单,记录了用户A拨打用户B的记录–需要做一个倒排索引,记录拨打给用户B的所有用户Areverse.txt13599999999 1008613899999999 12013544444444 1895555555518922222222 1895555555518900000000 12013544444444 12013544444444 11...原创 2018-03-05 16:50:58 · 492 阅读 · 0 评论 -
scala集合
本文参考至scala编程,菜鸟教程,然后将自己的判断以及重要方法的提取,解释,合并字符串在 Scala 中,字符串的类型实际上是 Java String,它本身没有 String 类。在 Scala 中,String 是一个不可变的对象,所以该对象不可被修改。这就意味着你如果修改字符串就会产生一个新的字符串对象。String 对象是不可变的,如果你需要创建一个可以修改的字符串,可以使用 Strin...转载 2018-03-16 16:52:22 · 254 阅读 · 0 评论 -
scala高阶函数学习
参考文章 http://www.cnblogs.com/wzm-xu/p/4063814.html http://www.cnblogs.com/wzm-xu/p/4064389.htmlscala高阶函数上高阶函数是函数式编程里面一个非常重要的特色,所谓的高阶函数,就是以其它函数作为参数的函数。下面以一个小例子演示Scala的高阶函数特性,非常有意思,也非常强大。首先看这么一个程序:code1:...转载 2018-03-16 16:49:18 · 256 阅读 · 0 评论 -
scala编程基础
多行字符串的表示方法多行字符串用三个双引号来表示分隔符,格式为:”“” … “”“。 实例如下:val foo = """菜鸟教程www.runoob.comwww.w3cschool.ccwww.runnoob.com以上三个地址都能访问"""变量变量声明var VariableName : DataType [= Initial Value]或val VariableName :...转载 2018-03-16 16:43:57 · 388 阅读 · 0 评论 -
Spark(四): spark第一个编程(JAVA)
一、问题描述三个文件中分别存储了学生的语文、数学和英语成绩,输出每个学生的成绩及平均值。数据格式如下: Chinese.txt张三 78李四 89王五 96赵六 67Math.txt张三 88李四 99王五 66赵六 77English.txt张三 80李四 82王五 84赵六 86文件目录二、Spark编程...原创 2018-03-19 10:33:47 · 504 阅读 · 0 评论 -
Pig
Pig的简介 Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。 Compare:相比Java的MapReduce API,Pig为大型数据集的处理提供了更高层次的抽象,与MapReduce相...原创 2018-03-06 10:06:34 · 1157 阅读 · 0 评论 -
Spark(一): 基本架构及原理
Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势:Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)的...转载 2018-03-13 17:22:57 · 258 阅读 · 0 评论 -
Spark(二): 内存管理
Spark 作为一个以擅长内存计算为优势的计算引擎,内存管理方案是其非常重要的模块; Spark的内存可以大体归为两类:execution和storage,前者包括shuffles、joins、sorts和aggregations所需内存,后者包括cache和节点间数据传输所需内存;在Spark 1.5和之前版本里,两者是静态配置的,不支持借用,spark1.6 对内存管理模块进行了优化,通过内存...转载 2018-03-13 17:23:41 · 279 阅读 · 0 评论 -
docker Zookeeper 集群安装与配置
docker先使用Docker构建一个Zookeeper运行环境的镜像,之前做过Hadoop的集群,我做过一个镜像(这里) 然后使用这个镜像分别启动3个容器:1个Master节点,两个Slave节点 在Master节点上配置Slave节点信息 在Master上启动ZookeeperZookeeper安装我使用的是zookeeper-3.4.11,其他版本请看这里cd /...原创 2018-03-06 17:11:03 · 1038 阅读 · 0 评论 -
使用Docker在本地搭建Flink分布式集群
Flink典型的任务处理过程如下所示:Flink安装包下载地址:http://flink.apache.org/downloads.html ,选择对应Hadoop的Flink版本下载 Standalone 模式快速入门教程地址:https://ci.apache.org/projects/flink/flink-docs-release-1.6/quickstart/set...原创 2019-01-11 15:56:40 · 11634 阅读 · 4 评论 -
MapReduce编程(四) 单表关联
一、问题描述下面给出一个child-parent的表格,要求挖掘其中的父子辈关系,给出祖孙辈关系的表格。输入文件内容如下:child parentSteven LucySteven JackJone LucyJone JackLucy MaryLucy FrankJack AliceJack JesseDavid ...转载 2018-03-05 13:32:44 · 2356 阅读 · 1 评论 -
MapReduce编程(三) 求均值
一、问题描述三个文件中分别存储了学生的语文、数学和英语成绩,输出每个学生的平均分。数据格式如下: Chinese.txt张三 78李四 89王五 96赵六 67Math.txt张三 88李四 99王五 66赵六 77English.txt张三 80李四 82王五 84赵六 86二、MapReduce编程pac...转载 2018-03-05 13:23:56 · 1106 阅读 · 0 评论 -
MapReduce编程(二) 文件合并和去重
file1.txt中的内容:20150101 x20150102 y20150103 x20150104 yfile2.txt中的内容:20150105 z20150106 x20150101 y20150102 yfile3.txt中的内容:20150103 x20150104 z20150105 ...原创 2018-03-02 16:52:29 · 13573 阅读 · 1 评论 -
Azkaban
1. Azkaban是什么?Azkaban是由Linkedin公司推出的一个批量工作流任务调度器,主要用于在一个工作流内以一个特定的顺序运行一组工作和流程,它的配置是通过简单的key:value对的方式,通过配置中的dependencies 来设置依赖关系,这个依赖关系必须是无环的,否则会被视为无效的工作流。Azkaban使用job配置文件建立任务之间的依赖关系,并提供一个易于使用的web用户界面...原创 2018-02-13 15:49:43 · 34223 阅读 · 2 评论 -
Hadoop Hello World
在安装并配置好Hadoop环境之后,需要运行一个实例来验证配置是否正确,Hadoop就提供了一个简单的wordcount程序,其实就是统计单词个数的程序,这个程序可以算是Hadoop中的“Hello World”了。MapReduce原理MapReduce其实就是采用分而治之的思想,将大规模的数据分成各个节点共同完成,然后再整合各个节点的结果,得到最终的结果。这些分节点处理数据都可以做到并行处理,...转载 2018-02-27 13:55:48 · 468 阅读 · 0 评论 -
Hive
神马是Hive? Hive 是建立在 Hadoop 基础上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 QL ,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 ...原创 2018-03-06 17:09:23 · 304 阅读 · 0 评论 -
hadoop中NameNode、DataNode、Secondary、NameNode、ResourceManager、NodeManager 介绍
Hadoop一直是我想学习的技术,正巧最近项目组要做电子商城,我就开始研究Hadoop,虽然最后鉴定Hadoop不适用我们的项目,但是我会继续研究下去,技多不压身。 《Hadoop基础教程》是我读的第一本Hadoop书籍,当然在线只能试读第一章,不过对Hadoop历史、核心技术和应用场景有了初步了解。 Hadoop历史 雏形开始于200转载 2017-07-20 14:44:24 · 1759 阅读 · 0 评论 -
深入理解HDFS:Hadoop分布式文件系统
文本详细介绍了HDFS中的许多概念,对于理解Hadoop分布式文件系统很有帮助。1. 介绍在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统。而一旦在系统中,引入网络,就不可避免地引入了所有网络编程的复杂性,例如挑战之一是如果保证在节点不可用的时候数据不丢失。传统的网络文件系统(NFS)虽然也称为分布式文件系统,但是其存在一些限制。由...转载 2018-02-28 14:01:19 · 1012 阅读 · 0 评论 -
使用Docker在本地搭建Hadoop分布式集群
学习Hadoop集群环境搭建是Hadoop入门必经之路。搭建分布式集群通常有两个办法:要么找多台机器来部署(常常找不到机器)或者在本地开多个虚拟机(开销很大,对宿主机器性能要求高,光是安装多个虚拟机系统就得搞半天……)。那么,问题来了!有没有更有可行性的办法?提到虚拟化,Docker最近很是火热!不妨拿来在本地做虚拟化,搭建Hadoop的伪分布式集群环境。虽然有点大材小用,但是学习学习,练练手也是...原创 2018-02-23 09:43:26 · 10166 阅读 · 3 评论 -
Spark(三): spark集群环境搭建
dockerHadoop的集群,我做过一个镜像(这里)然后使用这个镜像分别启动3个容器:1个Master节点,两个Slave节点在Master节点上配置Slave节点信息在Master上启动Hadoop集群在Master上启动Zookeeper集群(这里)在Master上启动Hbase集群(这里)Scala安装我使用的是scala-2.12.4.tgz,其他版本请看这里解压后重命名,接来配置环境变...原创 2018-03-15 14:16:42 · 473 阅读 · 0 评论 -
Hbase 集群安装及配置
docker先使用Docker构建一个Zookeeper运行环境的镜像,之前做过Hadoop的集群,我做过一个镜像(这里)然后使用这个镜像分别启动3个容器:1个Master节点,两个Slave节点在Master节点上配置Slave节点信息在Master上启动Hadoop集群在Master上启动Zookeeper集群Hbase安装我使用的是hbase-1.2.6-bin,其他版本这里cd /usr/...原创 2018-03-09 14:32:12 · 1127 阅读 · 0 评论 -
hadoop家族知识框架简介
Hadoop家族学习路线图Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Cr转载 2017-03-13 17:16:19 · 341 阅读 · 0 评论 -
hbase shell基本操作
hbase操做hbase web操作hbase shell 基本操作1建表具体命令2建表后查看表describe3清空表truncate lmj_test4删除表5修改表结构先disable后enable6对表中记录的操作4种行操作7表操作权限8命名空间hbase原理及时间戳管理介绍hbase 表hbase操做hbase web操作访问地址 http://localhost:16010 hba...原创 2018-03-09 16:34:14 · 910 阅读 · 0 评论 -
MapReduce编程(一) WordCount
一、软件环境我使用的软件版本如下:Intellij Idea 2017.1Maven 3.3.9macOS 本地配置Hadoop环境单服务(Docker Hadoop分布式环境( 安装教程可参考这里))二、创建maven工程打开Idea,file->new->Project,左侧面板选择maven工程。(如果只跑MapReduce创建java工程即可,不用勾选Creat from ar...原创 2018-03-02 16:27:20 · 3281 阅读 · 0 评论 -
使用Docker在本地搭建kafka分布式集群
一、下载下载地址:http://kafka.apache.org/downloads.html 我这里下载的是Scala 2.11对应的 kafka_2.11-1.1.0.tgz二、kafka安装集群规划IP 节点名称 Kafka Zookeeper Jdk docker 172.17.0.2 master Kafka...原创 2019-01-14 15:42:59 · 1142 阅读 · 0 评论