天然呆的技术博客-优快云博客

原创集合覆盖模型

集合覆盖模型（一）模型介绍在这里，将采用集合覆盖模型进行营业厅选址的计算，集合覆盖模型的基础思想是用最小数量的变压器在规定的半径范围去覆盖所有的需求点。覆盖模型的数学模型为：，约束条件为：N——区域中的变压器全集合，N={1,2,…,n}；M——区域中所需建设营业厅的候选点集合,M={1,2,…,m}；di——第i个营业厅的需求量；Dj——营业厅j的

2016-05-18 11:07:55 32857 10

原创 Spark Streaming 作业调度流程

StreamingContext在实例化时候会创建DStreamGraph、JobGenerator、JobScheduler下面组件运行在Driver1.JobGenerator：通过timmer根据固定时间间隔(Batch Interval)不断的产生Job(其实此时的Job相当于java的Runnable类型实例)，Job会提交给JobScheduler2.Job

2016-05-18 10:37:39 1649

原创 StreamingContext实例化过程

一.SparkStreaming实例化过程创建StreamingContext的方法有很多种，示例以SparkCon和任务执行间隔作为参数创建StreamingContextval ssc = new StreamingContext(conf,Seconds(3))1.检查SparkContext和CheckPoint，不能同时为空，否则抛出异常2.检查checkPo

2016-05-18 10:36:52 1790

原创 Spark作业调度

1.生成finalStagefinalStage是根据RDD依赖关系(广度优先)回溯形成的一种ResultStage，内部包含了当前stage的父stage，shuffleDependecy优先进行回溯，如果当前rdd含有shuffleDependecy则继续回溯，直到回溯到最初始的RDD，然后形成stage,如果期间有窄依赖则将RDD并入到当前stage直到遇到shuffleDepe

2016-05-18 10:35:46 528

原创 Spark中的Driver本质

spark-shellspark-submit --class org.apache.spark.repl.Mainspark-sqlspark-submit --class org.apache.spark.sql.hive.thriftserver.SparkSQLCLIDriverspark-thriftServerspark-submit -

2016-05-18 10:35:11 1668

原创 Spark 中的序列化

1.序列化常用于网络传输和数据持久化以便于存储和传输，Spark通过两种方式来创建序列化器val serializer = instantiateClassFromConf[Serializer]("spark.serializer", "org.apache.spark.serializer.JavaSerializer")logDebug(s"Using serializer: ${ser

2016-05-18 10:34:45 7060

原创 Spark Context

1.创建LiveListenerBus用于构建Spark事件处理模型private[spark] val listenerBus = new LiveListenerBus2.JobProgressListener创建并向listenerBus注册_jobProgressListener = new JobProgressListener(_conf)listenerB

2016-05-18 10:33:59 1184

原创 Spark env

1.给driver的分配corelocal => 1local[5] =>5local[*] =>当前进程能够给虚拟机分配的最大core数非本地模式下都为02.初始化 SecurityManager3.初始化RPCEnv,同时初始化Rpc工厂(默认为netty)然后使用工厂创建RpcEnv4.使用AkkaUtil创建ActorSystem5.初始化序

2016-05-18 10:33:24 379

原创 Spark RpcEnv

在SparkContext初始化环境时使用下面代码创建RpcEnvval rpcEnv = RpcEnv.create(actorSystemName, hostname, port, conf, securityManager, clientMode = !isDriver)创建RpcEnv时通过创建RpcEnvFactory(默认为netty)然后使用工厂创建RpcEnv,如下代

2016-05-18 10:32:41 2421

原创 Spark中的事件处理分析

一.当初始化SparkContext时，需要初始化Spark Env需要接受3个参数_env = createSparkEnv(_conf, isLocal, listenerBus)上文listenerBus实例是LiveListenerBus同时继承自AsynchronousListenerBus和SparkListenerBus，都属于ListenerBus的子类A.关于Listen

2016-05-18 10:32:08 1522

原创 eclipse创建Maven-web工程参考

http://www.cnblogs.com/candle806/p/3439469.html

2015-11-24 14:34:19 418

原创 Ambari-server源码分析(三)：HeartbeatHander源码分析

通过上图可以很清楚的看到：HeartbeatHander用于接受各个agent的心跳请求(节点信息和返回的操作结果)，并把节点信息传递给FSM状态机去维护该节点的状态，并把返回的操作结果传递给ActionManager去做进一步的处理2，主要成员介绍：心跳：内部包括节点信息和节点状态{ HeartBeat hb = new HeartBeat(); hb.set

2015-10-20 18:04:03 1400

原创 Ambari-server源码分析(一):Agent组件

ambari-server agent模块分析

2015-10-20 18:02:59 1827

原创 Ambari源码分析(一)：Ambari架构

ambari-cwikihttps://cwiki.apache.org/confluence/display/AMBARI/Ambariambari-githubhttps://github.com/apache/ambariAmbari系统架构除了ambari-server和ambari-agent，ambari还提供一个界面清亮的管理监控页面amb

2015-10-20 18:02:02 3569

原创 Mahout学习四--贝叶斯分类

一，算法流程A，准备阶段1，确定特征属性--->获取训练样本B，训练阶段1，对每个类别计算P(y1)2，对每个特征属性计算所有划分的条件概率C，预测阶段1，对每个类别计算P(x|y1)P(y1)2，以P(x|y1)P(y1)最大项作为X所属类别二，mahout使用A，创建序列数据集mahout seqdirectory -i input_text

2015-07-26 21:16:19 783

原创 Mahout学习三--逻辑回归预测

1，训练样本mahout trainlogistic --input dataset/donut.csv \--output ./model \--target color --categories 2 \--predictors x y --types numeric \-- features 20 --passes 100 --rate 502，mahout r

2015-07-26 19:02:08 2146

原创 Mahout学习二--kmeans实例

1，将数据转化为SequenceFilehadoop fs -put input input_textmahout seqdirectory -i input_text -o input_seq -c UTF8 -chunk 52，数据向量化mahout seq2sparse -i input_seq -o input_vec --maxDFPercent 85 --namedV

2015-07-26 18:12:29 562

原创 Mahout学习一

1，二进制转换成文本格式命令mahout seqdumper -i output/clusterPoint -o dataSet/clusterPoint

2015-07-26 13:21:52 625

原创 hbase 继承RestFul问题

http://www.bejson.com/java.lang.AbstractMethodError: javax.ws.rs.core.UriBuilder.uri(Ljava/lang/String;)Ljavax/ws/rs/core/UriBuilder; javax.ws.rs.core.UriBuilder.fromUri(UriBuilder.java:119)

2015-06-26 20:05:40 1074

原创 spark_job_server

note:a) 原来的Spark job提交方式在现在（CDH5.4.2 yarn-client模式）不能有效加载集群中HBase的配置信息，这会造成部分机器上executor（gs-server-10003, 10004, 10005没有安装Zookeeper的节点）无法进行hbase操作，会拖累整个任务的执行。正确的启动方式要用“--conf spark.executor.e

2015-06-20 09:59:55 909

原创 hbase on spark -use HiveCxt

maven文件 1.7 1.7 UTF-8 2.10.4 1.3.0-cdh5.4.2 2.6.0-cdh5.4.2 1.0.0-cdh5.4.2 com.google.guava guava 16.0 org.apache.spar

2015-06-18 10:53:18 518

原创 spark源码分析只： job 全过程

为了研究生命周期，往往需要action触发Job的运行，以RDD的count操作为例来说明def count(): Long = sc.runJob(this, Utils.getIteratorSize _).sumcount命令实际上触发了SparkContext的runJob方法执行，然后以sum统计job执行的结果层层跟踪runJob方法 def ru

2015-04-30 21:33:49 604

原创 parquet列存储

why?1，同一列数据的类型和“材质”是一致的，所以压缩起来更节省空间2，在按列检索需求下，无需读取整行记录，I/O降低3，当每一列类型相同时，通过编码能够更好的适应现代处理器分支指令集预测优化message example as followmessage AddressBook { required string owner; rep

2015-04-30 21:30:32 875

java -cp "/opt/cloudera/parcels/CDH/lib/hbase/conf/:/opt/cloudera/parcels/CDH/lib/hbase/hbase-common.jar:/opt/cloudera/parcels/CDH/lib/hbase/hbase-client.jar:/opt/cloudera/parcels/CDH/lib/hbase/hbase-

2015-04-30 21:29:09 836

原创部署微博自动爬取组件

#!/bin/bashTHIS_PATH='/home/bigdata/script/weibo-userid'cd $THIS_PATHif [ -z "$1" ];then echo "please input date,The data format is yyyymmdd." exit 1fi DAY=$1YEAR=${DAY:0:4}M

2015-04-30 21:24:55 511

原创 maven配置scala环境

1，配置scala开发环境maven配置： org.apache.maven.plugins maven-compiler-plugin 3.1 1.7 1.7 UTF-8 org.scala-tools maven-scala-plugin 2.15.2 compile

2015-04-30 21:16:39 1137

原创 CSV数据导入Parquet表

1，执行sql获取csv文件select * from ad.click where month = 201412 and referralpage like 'http://weibo.com%'2，将csv文件上传到服务器local:/home/maoxiao/ad_weibo/data/click/201412.csv3，创建csv表CREATE TA

2015-04-30 21:14:53 3761

原创 RT 降维技术

一，特征选择法 1，用筛选器检测冗余特征 a，相关性分析 A，使用scipy.stat pearson([1,2,3],[1,2,3,1]) 计算相关系数，返回相关系数值和p值，P越低则相关性系数越可信 B，弊端：只能检测出线性关系 b，互信息 A，能处理非线性问题

2015-04-30 21:13:56 485

原创 CK，KNN算法

测量不同特征值之间的距离方法优点：精度高，对异常值不敏感，无数据输入设定缺点：计算复杂度高，空间复杂度高适用范围：数值型和标称型

2015-04-30 21:11:54 733

原创 CB，朴素贝叶斯和贝叶斯信念网络

1，朴素贝叶斯需要特征之间相互独立的强条件，制约了模型的适用2，贝叶斯网络中的一个节点，如果它的父母节点已知，则它条件独立于它的所有非后代节点3，每个节点附带一个条件概率表（CPT），表示该节点和父母节点的联系概率

2015-04-30 21:11:18 834

原创 CD，决策树

算法的核心问题：1，按照什么样的次序来选择变量(属性)？ ID3：信息增益 ID3弊端：信息增益的方法倾向于首先选择因字数较多的变量 C4.5: 信息增益率以个数为4，6，4的元祖为例 1，计算分裂信息参数：

2015-04-30 21:10:50 402

原创工程师的自我修养

1：团队精神和协作能力把它作为基本素质，并不是不重要，恰恰相反，这是程序员应该具备的最基本的，也是最重要的安身立命之本。把高水平程序员说成独行侠的都是在呓语，任何个人的力量都是有限的，即便如linus这样的天才，也需要通过组成强大的团队来创造奇迹，那些遍布全球的为linux写核心的高手们，没有协作精神是不可想象的。独行侠可以作一些赚钱的小软件发点小财，但是一旦进入一些大系统的研发团队，进入

2015-04-30 21:09:46 859

原创 my.cnf解决中文乱码

[mysqld]default-character-set=utf8character_set_server=utf8init_connect='SET NAMES utf8'datadir=/var/lib/mysqlsocket=/var/lib/mysql/mysql.sockuser=mysql# Disabling symbolic-links is reco

2015-04-30 21:08:43 1450

原创 CentOS快速安装mysql

1，查看CentOS自带mysql是否已安装。输入：yum list installed | grep mysql2，若有自带安装的mysql，如何卸载CentOS系统自带mysql数据库？输入：yum -y remove mysql-libs.x86_64，若有多个依赖文件则依次卸载。当结果显示为Complete！即卸载完毕。3，查看yum库上的mysql版本信息

2015-04-30 21:07:05 431

原创 2014个人总结

一，2014年技术工作回顾和技术经验？ a，技术工作回顾 1) 基本日志解析：开发md、vd日志解析程序以及mapreduce离线批处理程序。 2) visualVM监控hadoop集群、storm评估、sqoop数据导入导出。 3) aud项目中：mapreduce、spark、spark-sql、avro、parquet、hbase、hiv

2015-04-30 21:05:15 462

原创 java Map 2 scala Map

import scala.collection.{JavaConverters, mutable} val props: mutable.Map[String, String] = JavaConverters.mapAsScalaMapConverter(DomainType2Code.props).asScala

2015-04-30 21:03:07 2278

原创 solr-phoenix

1 , phoenix配置文档+demo-crud程序2 , solr索引原理（一次性建立还是每次都建立，对值）将HBase表中涉及条件过滤的字段和rowkey在Solr中建立索引，通过Solr的多条件查询快速获得符合过滤条件的rowkey值，拿到这些rowkey之后在HBASE中通过指定rowkey进行查询phoenix VS solr第一种方案是通过HBase的普通

2015-04-30 21:02:34 1603

原创 hive over hbase方式将微博用户数据导入hbase

1，创建hbase表WeiboUserData>>create 'WeiboUserData','CF'2，创建hive->hbase外表logic_WeiboUserData,并对应hbase中的WeiboUser表>>CREATE EXTERNAL TABLE logic_WeiboUserData (rowkey string,screenName string,

2015-04-30 20:59:17 504

原创 hive over hbase方式将数据导出

CREATE EXTERNAL TABLE userData(rowkey string,UserId String, ProfileId int,ClientTimeHourPart int,ClientTimeDayOfWeekPart String,ServerTime String,Country String,StateOrProvince String,City String,Lo

2015-04-30 20:57:02 593

原创 hive over hbase方式将文本库数据导入hbase

1，创建hbase表Corpus>>create 'Corpus','CF'2，创建hive->hbase外表logic_Corpus,并对应hbase中的Corpus表>>CREATE EXTERNAL TABLE logic_Corpus (rowkey string,Text string)STORED BY 'org.apache.hadoop.hive.h

2015-04-30 20:55:01 469

空空如也

空空如也