king_a_123-优快云博客

转载 Total Order Partitioner

http://blog.youkuaiyun.com/xuefei2/article/details/51678531 博客地址就非常好！！！

2017-02-11 21:52:14 546

原创 spark的一点总结

1.要知道1个线程也是可以运行多个task的！只不过如果同时运行多个task就会出现运行一会儿这个，运行一会儿那个，这样轮流运行的情况！2.读取本地文件和hdfs文件的分区数(partition数)是不一样的！3.可以用sparkconf在setMaster之后设置并行度，也就是线程数，同时也可以设置分区数(也就是partition数量)，所以会出现一个线程运行多个partition的情况

2016-12-09 15:37:07 1025

原创 kafka

1.安装zk集群2.config/server.propertites添加zk地址：zookeeper.connect=node01:2181,node-02/;2181,node-03/:2181修改broker.id(唯一的)：broker.id=03.启动bin/kafka-server-start.sh config/server.properties

2016-12-07 09:46:29 496

原创 sparkStreaming与storm的简单对比

1.sparkStreaming其实也是准实时的，而storm是实时的，storm是来一条处理一条，sparkstreaming是每次处理一堆数据，但是sparkstreaming的优势是吞吐量有优势！

2016-12-06 16:27:00 725

原创 Spark的cache与checkpoint优化

1.SPARK中一些通用的或者重要的RDD最好是做一个cache缓存，缓存到内存或者硬盘中，这样下次用到这个RDD数据的时候就不用从头开始计算了，直接从缓存读取即可！2由于某种原因也可能我们用cache或者Persist缓存的RDD数据，也可能会出现缓存这些数据的一部分机子突然挂掉等，如果此时还想更保险的保存该RDD的结果，最好就checkpoint一下，将checkpointDir设置为HD

2016-12-05 20:37:14 1645

原创大数据的大公司

要想进大数据公司的大公司，他要求你的基本功要扎实，比如快速排序，二分法查找，红黑树，二叉树，单例模式，多线程，JVM都要会写！

2016-12-05 10:57:30 453

原创 Spark自定义排序

1.Spark的自定义排序只需要实现Ordered trait,T传入当前类即可，并实现里面的compare方法，并且实现Serializable trait即可！2.当然也可以用隐世转换的形式！

2016-12-05 10:07:29 400

原创 Spark分区器HashPartitioner

在Spark中分区器直接决定了RDD中分区的个数；也决定了RDD中每条数据经过Shuffle过程属于哪个分区；也决定了Reduce的个数。这三点看起来是不同的方面的，但其深层的含义是一致的。我们需要注意的是，只有Key-Value类型的RDD才有分区的，非Key-Value类型的RDD分区的值是None的。注：有的时候，HashPartitioner存在分区碰撞问题，即不同的值可

2016-12-04 22:31:33 1100

原创 Spark随记

重要：http://homePage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html上面这个网址可以学习好多spark的API函数的具体使用，简单易学！当spark程序从HDFS上读取数据时，默认是一个block生成一个分区！当然这是直接用textFile且没有指定分区的情况下，如果这里我们指定了分区那么就按照我们指定的个数

2016-12-04 21:25:01 363

转载 Spark常用函数：transformation和action

1、RDD提供了两种类型的操作：transformation和action所有的transformation都是采用的懒策略，如果只是将transformation提交是不会执行计算的，计算只有在action被提交的时候才被触发。1）transformation操作：得到一个新的RDD，比如从数据源生成一个新的RDD，从RDD生成一个新的RDDmap(func):对调用map的RDD数

2016-12-04 18:33:46 681

转载 IntelliJ Idea 常用快捷键列表

Ctrl+Shift + Enter，语句完成“！”，否定完成，输入表达式时按 “！”键Ctrl+E，最近的文件Ctrl+Shift+E，最近更改的文件Shift+Click，可以关闭文件Ctrl+[ OR ]，可以跑到大括号的开头与结尾Ctrl+F12，可以显示当前文件的结构Ctrl+F7，可以查询当前元素在当前文件中的引用，然后按 F3 可以选择Ctrl+N，可

2016-12-04 14:59:42 403

转载 Hadoop文件系统元数据fsimage和编辑日志edits

在《Hadoop NameNode元数据相关文件目录解析》文章中提到NameNode的$dfs.namenode.name.dir/current/文件夹的几个文件：1current/2|-- VERSION3|-- edits_*

2016-12-03 14:59:10 422

原创 MapReduce端的二次排序以及对移动计算而不是移动数据的理解

，1.其实MapReduce的二次排序是我们定义的sort排序会执行两遍，第一遍是在map端执行，针对一个map任务的(当partition之后的将数据写入到内存缓冲区的时候，达到内存缓冲区的80%的时候就会spill到disk,此时disk是作为硬盘缓存的，所以我们的数据在硬盘上可以sort排序，而且在map执行完任务之后数据就不见了)，那么当程序执行到reduce之后，reduce端shu

2016-12-02 22:28:06 8549 3

转载 scala的抽象类、抽象字段、抽象方法

1.抽象类是声明用abstract2.方法是抽象方法在抽象类中只需要定义方法，没有实现3.字段是抽象方法在抽象类中不给字段进行赋值4.代码packagecom.jn.scala.oop/** * @authoradmin */classAbstractClassOps{ varid: Int = _//使用

2016-11-22 10:24:35 1866

原创 scala入门之变量定义

看看下面这个地址中的一些说明： https://my.oschina.net/fhd/blog/273952

2016-11-22 08:55:43 617

原创 nginx一些内置的变量

HTTP核心模块支持一些内置变量，变量名与apache里的对应。比如 $http_user_agent，$http_cookie等表示HTTP请求信息的变量。更多变量：$args, 请求中的参数; $content_length, HTTP请求信息里的"Content-Length"; $content_type, 请求信息里的"Content-Type"; $document

2016-11-18 10:55:40 396

原创 Hbase中的Rowkey设计原则

收藏一个地址：http://blog.youkuaiyun.com/javajxz008/article/details/51892967上面这个博客里讲到的Hbase的rowkey的设计原则还可以

2016-11-18 10:48:26 609

原创 Flume

1.在java中，类的成员变量不用初始化即可直接使用，JVM会自动初始化，原始变量如int char short long byte初始化为0，float double初始化为0.0，boolean初始化为false，对象初始化为null2.flume的关键点：source、channel、sink三个阶段！3.两个flume或者多个flume之间用Avro协议，实际上RPC协

2016-11-17 17:18:47 412

原创电商Hadoop项目第一天

1.通过页面埋点将数据带回到服务器端！ window.navigator.userAgent可以获得浏览器，操作系统的信息！ window.navigator.language 可以获取语言信息（F12搜索） 2.通过客户端ip获取地域信息！3.ETL除了处理脏数据，还会处理ip到地域的转换4.Sdk指通过页面埋点js，或者java收集!

2016-11-17 10:52:05 2226

原创 zookeeper

1.YARN主要包括：ResourceManager,NodeManager,ApplicationMaster,Container; MapReduce作业提交之后，在nodeManager节点首先会new 一个ApplicationMaster，然后ApplicationMaster向ResourceManager申请资源，ResourceManager将ApplicationMaste

2016-11-15 19:54:42 1546

原创 oozie

看到一篇博客感觉不错！ http://blog.youkuaiyun.com/youzhouliu/article/details/52384112============================OOZIE=========================================================== 1. • Oozie是用于 Hadoop 平

2016-11-14 17:39:45 631

原创 Impala

1.impala也支持Hive标准，即在Hive中的语句也可以在Impala中执行！2.impala可以共用hive的元数据库，impala离开hive就活不下去了，即添加一个impala服务就要添加一个hive服务13.impala是基于内存计算的，所以速度非常快，而hive是转换成MR执行，所以Impala比较耗内存，Impala有数据仓库的特性就是因为它依赖于hive特性！

2016-11-14 17:37:40 865

原创 Impala简介

收集了一篇文章：https://my.oschina.net/rosetta/blog/749927

2016-11-14 10:59:49 191

原创 HDFS+MapReduce+HBase整合

4.MapReduce+Hbase+HDFS的整合(补充）: public class WCJob { public static void main(String[] args) throws Exception { // 默认加载src下的配置文件 Configuration conf = new Configuration();

2016-11-10 17:37:05 485

原创 Hbase代码优化总结

========================================================================================================================1 FileInputFormat指定的输入是从HDFS上的，当然我们也可以从其它地方例如：HBASE上，或者存储单元上的数据！ Fil

2016-11-10 17:34:01 421

原创 Hbase优化

=====================================================优化======================================================Hbase默认只有一级索引，就是rowkey!如果要建立二级索引，需要自己维护！1.potocol buffers 可以序列化结构化数据！利用protocol

2016-11-10 17:32:52 241

原创 Hbase表的设计

设计hbase表（表的查询相对于表的删除更多，所以设计表的时候要优先考虑查询）实际上描述了：多对多的对应关系：两张表（如下：人员-角色表的设计）！1、人员-角色 1.人员有多个角色，角色优先级 2.角色有多个人员 3.人员删除添加角色 4.角色可以添加删除人员 5.人员角色删除添加

2016-11-10 17:30:23 644

原创 iaas paas saas三种云服务区别

随着云计算的大热，向我咨询云计算相关问题的童鞋也越来越多，其中最近问的比较多的一个问题便是云计算中的pass是什么意思？整好今天有空，统一给大家解释下pass是什么意思？和Iass、Sass之间有什么区别呢？其实搞懂这个问题也不难，我们可以把云计算理解成一栋大楼，而这栋楼又可以分为顶楼、中间、低层三大块。那么我们就可以把Iass（基础设施）、Pass（平台）、Sass（软件）理解成这栋楼的三部

2016-11-09 18:50:31 25250

原创 Hbase简介

1.flume:离线数据处理的时候，用于收集数据！ sqoop: 完成关系型数据和非关系型数据库之间的转换(1.将最终结果都存放到关系型数据库中；2.将关系型数据库中的数据导入到非关系型数据中)！ mahout:对机器学习的算法用MapReduce来了个分布式的开源实现（分布式计算，提高效率，针对大数据量）！ 2.Hbase的数据最终也是放到HDFS上！3.在Ha

2016-11-09 18:40:02 472

转载 CDH（Cloudera）与hadoop（Apache）对比

问题导读：1.hadoop有几个版本？2.CDH有几种安装方式？3.CDH在安装认证方面做了什么改变？Cloudera的CDH和Apache的Hadoop的区别目前而言，不收费的Hadoop版本主要有三个（均是国外厂商），分别是：Apache（最原始的版本，所有发行版均基于这个版本进行改进）、Cloudera版本（Cloudera’s Distribution Includ

2016-11-08 17:47:12 325

原创 Hive入门

===================HIVE中的HQL练习=========================================================================================1.一定要考虑yum源，把它换成本地的，网络问题（公司有多个人都下载很大的文件时就有问题了），软件版本问题，都是事！2.分区可以按时间，每个月，每

2016-11-08 17:19:44 421

原创 Hadoop的一点点积累

Hadoop简单实现全排序基础知识： 1. TeraSort思想：关于terasort的文章很多，我没有找到那篇经典的原创。大体思想可以参看：http://hi.baidu.com/dt_zhangwei/item/c2a80032c7dbc5ff96f88dbf 我的理解：（1）如果reducer的个数为1，那么输出一定是一个文

2016-11-08 14:10:12 233

原创 Hive简介及安装

======================================================================Hive================================================================================================= 1.数据库存储业务数据，而数据仓库存储的是历史数

2016-11-08 14:09:26 256

原创 ElasticSearch大概（不全，还需努力）

1.ElasticSearch可以处理上亿甚至是几十亿、几百亿的搜索问题！底层基于luncene,但是它是实时，分布式的！luncene也就几百万的搜索数据量就慢了！2.关系型数据库也就存储几千万数据就差不多很慢了！3.搜索集群基本上就是ES（ElasticSearch）！4.一份url对应一个资源，你只要返回一个json,或者xml格式的数据返回给我，它不依赖于我的程序是否

2016-11-08 07:58:05 639

原创 MR 代码优化及Hive优化（Hive中的存储格式与压缩格式）

请百度：MapReduce的压缩优化，看看别人的博客！如：http://blog.youkuaiyun.com/erli11/article/details/40396257http://www.cnblogs.com/zhengrunjian/p/4527269.html

2016-11-05 20:41:47 491

原创 Luncene、solr浅析

1.SQL语句like会锁表，超过几万甚至几十万的时候就很慢，大数据支持差！lucene应运而生，当有几十亿的时候，就要用ElasticSearch!2.不用Lucene的时候，我们的HTTP请求到达web项目，web项目如果直接调用后台数据库，后台数据库就会直接进行like查询，它会利用正则表达式进行从上到下的匹配！用了Luncene之后，它给你建立起了倒排索引，先建立索引（对词

2016-11-04 19:34:26 1117

原创 MapReduce融会贯通版

=================================================================================================================== 经过自己反复验证：终于搞通了MapReduce的工作流程！ MapReduce的工作流程： Mapper中的Map方法------>Par

2016-11-03 13:46:32 256

原创 MapReduce的注意点

20.ResourceManager的高可用也是用ZKFC实现的？不是，ResourceManager的高可用是靠zookeeper来实现的！ ZKFC只是在处理NameNode的高可用的时候用到了，没有在ResourceManager的高可用的时候用到！1.writable接口：序列化和反序列化的接口！ Comparable接口：排序的接口：排序和分组归根结底都是比较！

2016-11-02 17:59:35 1005

原创 HDFS2.X的HA+Resourcemanager的HA

21. NN DN JN ZK ZKFC RS NM（NodeManager）node1 1 1 1node2 1 1 1 1 1 1node3

2016-11-02 09:55:12 227

原创 HDFS的Federation以及HA+YARN+ResourceManagerHA

1.Hadoop 1.x存在两个问题: HDFS存在的问题：NameNode的内存受限，压力过大，影响系统拓展性；以及NameNode的单点故障问题，难以应用于在线场景！ MapReduce存在问题： 2. Hadoop 2.0产生背景 – Hadoop 1.0中HDFS和MapRed

2016-11-01 18:24:04 819

空空如也

空空如也