- 博客(53)
- 收藏
- 关注
转载 Total Order Partitioner
http://blog.youkuaiyun.com/xuefei2/article/details/51678531 博客地址就非常好!!!
2017-02-11 21:52:14
546
原创 spark的一点总结
1.要知道1个线程也是可以运行多个task的!只不过如果同时运行多个task就会出现运行一会儿这个,运行一会儿那个,这样轮流运行的情况!2.读取本地文件和hdfs文件的分区数(partition数)是不一样的!3.可以用sparkconf在setMaster之后设置并行度,也就是线程数,同时也可以设置分区数(也就是partition数量),所以会出现一个线程运行多个partition的情况
2016-12-09 15:37:07
1025
原创 kafka
1.安装zk集群2.config/server.propertites添加zk地址:zookeeper.connect=node01:2181,node-02/;2181,node-03/:2181修改broker.id(唯一的):broker.id=03.启动bin/kafka-server-start.sh config/server.properties
2016-12-07 09:46:29
496
原创 sparkStreaming与storm的简单对比
1.sparkStreaming其实也是准实时的,而storm是实时的,storm是来一条处理一条,sparkstreaming是每次处理一堆数据,但是sparkstreaming的优势是吞吐量有优势!
2016-12-06 16:27:00
725
原创 Spark的cache与checkpoint优化
1.SPARK中一些通用的或者重要的RDD最好是做一个cache缓存,缓存到内存或者硬盘中,这样下次用到这个RDD数据的时候就不用从头开始计算了,直接从缓存读取即可!2由于某种原因也可能我们用cache或者Persist缓存的RDD数据,也可能会出现缓存这些数据的一部分机子突然挂掉等,如果此时还想更保险的保存该RDD的结果,最好就checkpoint一下,将checkpointDir设置为HD
2016-12-05 20:37:14
1645
原创 Spark自定义排序
1.Spark的自定义排序只需要实现Ordered trait,T传入当前类即可,并实现里面的compare方法,并且实现Serializable trait即可!2.当然也可以用隐世转换的形式!
2016-12-05 10:07:29
400
原创 Spark分区器HashPartitioner
在Spark中分区器直接决定了RDD中分区的个数;也决定了RDD中每条数据经过Shuffle过程属于哪个分区;也决定了Reduce的个数。这三点看起来是不同的方面的,但其深层的含义是一致的。我们需要注意的是,只有Key-Value类型的RDD才有分区的,非Key-Value类型的RDD分区的值是None的。注:有的时候,HashPartitioner存在 分区碰撞问题,即不同的值可
2016-12-04 22:31:33
1100
原创 Spark随记
重要:http://homePage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html上面这个网址可以学习好多spark的API函数的具体使用,简单易学!当spark程序从HDFS上读取数据时,默认是一个block生成一个分区!当然这是直接用textFile且没有指定分区的情况下,如果这里我们指定了分区那么就按照我们指定的个数
2016-12-04 21:25:01
363
转载 Spark常用函数:transformation和action
1、RDD提供了两种类型的操作:transformation和action所有的transformation都是采用的懒策略,如果只是将transformation提交是不会执行计算的,计算只有在action被提交的时候才被触发。1)transformation操作:得到一个新的RDD,比如从数据源生成一个新的RDD,从RDD生成一个新的RDDmap(func):对调用map的RDD数
2016-12-04 18:33:46
681
转载 IntelliJ Idea 常用快捷键列表
Ctrl+Shift + Enter,语句完成“!”,否定完成,输入表达式时按 “!”键Ctrl+E,最近的文件Ctrl+Shift+E,最近更改的文件Shift+Click,可以关闭文件Ctrl+[ OR ],可以跑到大括号的开头与结尾Ctrl+F12,可以显示当前文件的结构Ctrl+F7,可以查询当前元素在当前文件中的引用,然后按 F3 可以选择Ctrl+N,可
2016-12-04 14:59:42
403
转载 Hadoop文件系统元数据fsimage和编辑日志edits
在《Hadoop NameNode元数据相关文件目录解析》文章中提到NameNode的$dfs.namenode.name.dir/current/文件夹的几个文件:1current/2|-- VERSION3|-- edits_*
2016-12-03 14:59:10
422
原创 MapReduce端的二次排序以及对移动计算而不是移动数据的理解
,1.其实MapReduce的二次排序是我们定义的sort排序会执行两遍,第一遍是在map端执行,针对一个map任务的(当partition之后的将数据写入到内存缓冲区的时候,达到内存缓冲区的80%的时候就会spill到disk,此时disk是作为硬盘缓存的,所以我们的数据在硬盘上可以sort排序,而且在map执行完任务之后数据就不见了),那么当程序执行到reduce之后,reduce端shu
2016-12-02 22:28:06
8549
3
转载 scala的抽象类、抽象字段、抽象方法
1.抽象类是声明用abstract2.方法是抽象方法在抽象类中只需要定义方法,没有实现3.字段是抽象方法在抽象类中不给字段进行赋值4.代码packagecom.jn.scala.oop/** * @authoradmin */classAbstractClassOps{ varid: Int = _//使用
2016-11-22 10:24:35
1866
原创 nginx一些内置的变量
HTTP核心模块支持一些内置变量,变量名与apache里的对应。比如 $http_user_agent,$http_cookie等表示HTTP请求信息的变量。更多变量:$args, 请求中的参数; $content_length, HTTP请求信息里的"Content-Length"; $content_type, 请求信息里的"Content-Type"; $document
2016-11-18 10:55:40
396
原创 Hbase中的Rowkey设计原则
收藏一个地址:http://blog.youkuaiyun.com/javajxz008/article/details/51892967上面这个博客里讲到的Hbase的rowkey的设计原则还可以
2016-11-18 10:48:26
609
原创 Flume
1.在java中,类的成员变量不用初始化即可直接使用,JVM会自动初始化,原始变量如int char short long byte初始化为0,float double初始化为0.0,boolean初始化为false,对象初始化为null2.flume的关键点:source、channel、sink三个阶段!3.两个flume或者多个flume之间用Avro协议,实际上RPC协
2016-11-17 17:18:47
412
原创 电商Hadoop项目第一天
1.通过页面埋点将数据带回到服务器端! window.navigator.userAgent可以获得浏览器,操作系统的信息! window.navigator.language 可以获取语言信息(F12搜索) 2.通过客户端ip获取地域信息!3.ETL除了处理脏数据,还会处理ip到地域的转换4.Sdk指通过页面埋点js,或者java收集!
2016-11-17 10:52:05
2226
原创 zookeeper
1.YARN主要包括:ResourceManager,NodeManager,ApplicationMaster,Container; MapReduce作业提交之后,在nodeManager节点首先会new 一个ApplicationMaster,然后ApplicationMaster向ResourceManager申请资源,ResourceManager将ApplicationMaste
2016-11-15 19:54:42
1546
原创 oozie
看到一篇博客感觉不错! http://blog.youkuaiyun.com/youzhouliu/article/details/52384112============================OOZIE=========================================================== 1. • Oozie是用于 Hadoop 平
2016-11-14 17:39:45
631
原创 Impala
1.impala也支持Hive标准,即在Hive中的语句也可以在Impala中执行!2.impala可以共用hive的元数据库,impala离开hive就活不下去了,即添加一个impala服务就要添加一个hive服务13.impala是基于内存计算的,所以速度非常快,而hive是转换成MR执行,所以Impala比较耗内存,Impala有数据仓库的特性就是因为它依赖于hive特性!
2016-11-14 17:37:40
865
原创 HDFS+MapReduce+HBase整合
4.MapReduce+Hbase+HDFS的整合(补充): public class WCJob { public static void main(String[] args) throws Exception { // 默认加载src下的配置文件 Configuration conf = new Configuration();
2016-11-10 17:37:05
485
原创 Hbase代码优化总结
========================================================================================================================1 FileInputFormat指定的输入是从HDFS上的,当然我们也可以从其它地方例如:HBASE上,或者存储单元上的数据! Fil
2016-11-10 17:34:01
421
原创 Hbase优化
=====================================================优化======================================================Hbase默认只有一级索引,就是rowkey!如果要建立二级索引,需要自己维护!1.potocol buffers 可以序列化结构化数据! 利用protocol
2016-11-10 17:32:52
241
原创 Hbase表的设计
设计hbase表(表的查询相对于表的删除更多,所以设计表的时候要优先考虑查询) 实际上描述了:多对多的对应关系:两张表(如下:人员-角色表的设计)!1、人员-角色 1.人员有多个角色,角色优先级 2.角色有多个人员 3.人员 删除添加角色 4.角色 可以添加删除人员 5.人员 角色 删除添加
2016-11-10 17:30:23
644
原创 iaas paas saas三种云服务区别
随着云计算的大热,向我咨询云计算相关问题的童鞋也越来越多,其中最近问的比较多的一个问题便是云计算中的pass是什么意思?整好今天有空,统一给大家解释下pass是什么意思?和Iass、Sass之间有什么区别呢?其实搞懂这个问题也不难,我们可以把云计算理解成一栋大楼,而这栋楼又可以分为顶楼、中间、低层三大块。那么我们就可以把Iass(基础设施)、Pass(平台)、Sass(软件)理解成这栋楼的三部
2016-11-09 18:50:31
25250
原创 Hbase简介
1.flume:离线数据处理的时候,用于收集数据! sqoop: 完成关系型数据和非关系型数据库之间的转换(1.将最终结果都存放到关系型数据库中;2.将关系型数据库中的数据导入到非关系型数据中)! mahout:对机器学习的算法用MapReduce来了个分布式的开源实现(分布式计算,提高效率,针对大数据量)! 2.Hbase的数据最终也是放到HDFS上!3.在Ha
2016-11-09 18:40:02
472
转载 CDH(Cloudera)与hadoop(Apache)对比
问题导读:1.hadoop有几个版本?2.CDH有几种安装方式?3.CDH在安装认证方面做了什么改变?Cloudera的CDH和Apache的Hadoop的区别 目前而言,不收费的Hadoop版本主要有三个(均是国外厂商),分别是:Apache(最原始的版本,所有发行版均基于这个版本进行改进)、Cloudera版本(Cloudera’s Distribution Includ
2016-11-08 17:47:12
325
原创 Hive入门
===================HIVE中的HQL练习=========================================================================================1.一定要考虑yum源,把它换成本地的,网络问题(公司有多个人都下载很大的文件时就有问题了),软件版本问题,都是事!2.分区可以按时间,每个月,每
2016-11-08 17:19:44
421
原创 Hadoop的一点点积累
Hadoop简单实现全排序 基础知识: 1. TeraSort思想: 关于terasort的文章很多,我没有找到那篇经典的原创。大体思想可以参看:http://hi.baidu.com/dt_zhangwei/item/c2a80032c7dbc5ff96f88dbf 我的理解: (1)如果reducer的个数为1,那么输出一定是一个文
2016-11-08 14:10:12
233
原创 Hive简介及安装
======================================================================Hive================================================================================================= 1.数据库存储业务数据,而数据仓库存储的是历史数
2016-11-08 14:09:26
256
原创 ElasticSearch大概(不全,还需努力)
1.ElasticSearch可以 处理上亿甚至是几十亿、几百亿的搜索问题!底层基于luncene,但是它是实时,分布式的!luncene也就几百万的搜索数据量就慢了!2.关系型数据库也就存储几千万数据就差不多很慢了!3.搜索集群基本上就是ES(ElasticSearch)!4.一份url对应一个资源,你只要返回一个json,或者xml格式的数据返回给我,它不依赖于我的程序是否
2016-11-08 07:58:05
639
原创 MR 代码优化及Hive优化(Hive中的存储格式与压缩格式)
请百度:MapReduce的压缩优化,看看别人的博客!如:http://blog.youkuaiyun.com/erli11/article/details/40396257http://www.cnblogs.com/zhengrunjian/p/4527269.html
2016-11-05 20:41:47
491
原创 Luncene、solr浅析
1.SQL语句like会锁表,超过几万甚至几十万的时候就很慢,大数据支持差!lucene应运而生,当有几十亿的时候,就要用ElasticSearch!2.不用Lucene的时候,我们的HTTP请求到达web项目,web项目如果直接调用后台数据库,后台数据库就会直接进行like查询,它会利用正则表达式进行从上到下的匹配! 用了Luncene之后,它给你建立起了倒排索引,先建立索引(对词
2016-11-04 19:34:26
1117
原创 MapReduce融会贯通版
=================================================================================================================== 经过自己反复验证:终于搞通了MapReduce的工作流程! MapReduce的工作流程: Mapper中的Map方法------>Par
2016-11-03 13:46:32
256
原创 MapReduce的注意点
20.ResourceManager的高可用也是用ZKFC实现的?不是,ResourceManager的高可用是靠zookeeper来实现的! ZKFC只是在处理NameNode的高可用的时候用到了,没有在ResourceManager的高可用的时候用到!1.writable接口:序列化和反序列化的接口! Comparable接口:排序的接口:排序和分组归根结底都是比较!
2016-11-02 17:59:35
1005
原创 HDFS2.X的HA+Resourcemanager的HA
21. NN DN JN ZK ZKFC RS NM(NodeManager)node1 1 1 1node2 1 1 1 1 1 1node3
2016-11-02 09:55:12
227
原创 HDFS的Federation以及HA+YARN+ResourceManagerHA
1.Hadoop 1.x存在两个问题: HDFS存在的问题:NameNode的内存受限,压力过大,影响系统拓展性;以及NameNode的单点故障问题,难以应用于在线场景! MapReduce存在问题: 2. Hadoop 2.0产生背景 – Hadoop 1.0中HDFS和MapRed
2016-11-01 18:24:04
819
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人