- 博客(112)
- 资源 (2)
- 收藏
- 关注
原创 kafka 日常操作
做个备忘1、启动 daemon方式 sudo -ukafka bin/kafka-server-start.sh -daemon config/server.properties2、关闭 sudo -ukafka bin/kafka-server-stopsh3、创建topic bin/kafka-topics
2017-10-26 12:03:02
529
原创 hadoop ipc server 分析
最近遇见namenode 响应时间变慢,分析一下namenode 的 ipc server源码,记录一下ipc server的机制
2017-10-25 20:30:37
6591
原创 hive 模拟update 操作
在使用hive构建数据仓库的时候,经常会遇到从mysql或者oracle数据导入到hive中。一般情况下,每天导一次数据,有些数据需要更新操作,最典型的例子就是订单数据,比如:订单创建时间订单导入hive时间订单更新时间2015-07-01 12:09:112015-07-02 00:30:002015-07-02 20:07:12
2015-07-13 19:55:52
5217
原创 hive 使用心得
1、遇到内存不够怎么办一般情况下是reduce端内存溢出,设置以下参数: set mapreduce.reduce.java.opts=-Xmx10000M; set mapreduce.reduce.memory.mb=10000; set mapreduce.reduce.tasks=64;2、遇到异常数据,比如
2015-04-15 19:28:58
1393
原创 scala fold系列函数及 sparkRDD fold 操作解析
scala 的fold系列 函数用起来比较方便,这里对比总结一下。foldfold 的定义:def fold[A1 >: A](z: A1)(op: (A1, A1) => A1): A1foldLeftfoldLeft 的定义:def foldLeft[B](z: B)(op: (B, A) => B): BfoldRightfold
2014-12-19 11:48:02
7206
原创 spark sql udf 解析json数据表的嵌套数组
使用spark sql 的时候,加载json数据作为表的基础数据。发现其中的json数据中有些字段对应的是一个嵌套数组:{“schema1”:"hello",“schema2” : [ {"a":1","b":"11"}, {“a”:"2","b":"22"}…… ]将json数据加载到spark sql 中:val sqlContext = new org.apache.spark.
2014-12-15 19:03:00
7319
转载 深入理解拉格朗日乘子法(Lagrange Multiplier) 和KKT条件
在求取有约束条件的优化问题时,拉格朗日乘子法(Lagrange Multiplier) 和KKT条件是非常重要的两个求取方法,对于等式约束的优化问题,可以应用拉格朗日乘子法去求取最优值;如果含有不等式约束,可以应用KKT条件去求取。当然,这两个方法求得的结果只是必要条件,只有当是凸函数的情况下,才能保证是充分必要条件。KKT条件是拉格朗日乘子法的泛化。之前学习的时候,只知道直接应用两个方法,但是却
2014-11-20 18:29:02
1607
原创 hadoop streaming python 处理 lzo 文件遇到的问题
一个小需求,不想写java的mapreduce的程序,想用streaming + python 处理一下
2014-11-18 16:03:49
3906
转载 SVM-支持向量机算法概述
(一)SVM的背景简介支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中[10]。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accu
2014-11-13 11:06:56
1123
转载 vc维
转于:http://blog.youkuaiyun.com/carson2005/article/details/6453098为了研究函数集在经验风险最小化原则下的学习一致性问题和一致性收敛的速度,统计学习理论定义了一系列有关函数集学习性能的指标,它们包括:随机熵、VC熵、退火的VC熵、生长函数、VC维等。尽管随机熵、VC熵、退火的VC熵、生长函数等在统计学习理论的发展过程中起到了一定的作用,但由于
2014-10-10 17:53:23
1471
原创 spark 几种transformation 的计算逻辑和测试
1、union(otherRDD) union() 与mysql中的union 操作类型,
2014-10-10 16:52:35
5540
原创 hbase coprocessor 实践:observer
hbase 的 coprocessor分为observer和endpoint两种方式,具体的区别和应用场景
2014-07-25 20:58:58
3875
转载 Spark RDDs(弹性分布式数据集):为内存中的集群计算设计的容错抽象
本文是阅读《Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing》过程中,抽了局部一些关注点翻译出来的文章,没有将全文都翻译。希望这些碎片化甚至不通顺的记录,可以帮助读者取代阅读原论文。论文地址http://www.cs.berkeley.edu/~matei/p
2014-04-11 15:15:20
1258
原创 spark任务error 一例
14/04/10 20:07:13 INFO ui.SparkUI: Started Spark Web UI at http://hadoop01:5929914/04/10 20:07:13 ERROR spark.SparkContext: Error adding jar (java.io.FileNotFoundException: wordcount.jar (没有那个文件或目录))
2014-04-10 20:10:16
2125
原创 java nio 笔记
最近工作中用到了java nio的知识,总结一下。先发一个师兄的总结文章,再根据遇到的问题写一下自己的心得。亮亮师兄的 java nio 四篇文章:java nio (1)java nio (2)java nio (3)java nio (4)
2014-02-12 11:54:09
1031
原创 java7 新特性
1、语法糖:数字中的下划线:比如 int a=100_000_000; 能让比较大的数字看起来更清晰二进制文本: java7可以直接使用二进制数字,比如用二进制表示十进制的102,java7之前需要这样写: int x = Integer.parseInt("1100110",2); 现在可以写成: int
2014-01-20 22:43:27
1197
转载 hbase 调优
因官方Book Performance Tuning部分章节没有按配置项进行索引,不能达到快速查阅的效果。所以我以配置项驱动,重新整理了原文,并补充一些自己的理解,如有错误,欢迎指正。配置优化zookeeper.session.timeout默认值:3分钟(180000ms)说明:RegionServer与Zookeeper间的连接超时时间。当超时时间到后,ReigonServer
2013-12-27 17:23:04
1069
1
原创 hadoop2.2.0 和 hbase0.94.12 平台使用phoenix
phoenix使hbase的数据可以通过sql语句进行操作,提供查询对话框和类jdbc的java中间件,非常方便。phoenix 的wiki:https://github.com/forcedotcom/phoenix/wikiphoenix的github:https://github.com/forcedotcom/phoenix目前,phoenix不支持hbase0.96版本,推荐
2013-12-26 15:42:48
3109
3
转载 hbase 常用操作
转自:http://blog.youkuaiyun.com/kirayuan/article/details/8646517一,基本命令: 建表:create 'testtable','coulmn1','coulmn2' 也可以建表时加coulmn的属性如:create 'testtable',{NAME => 'coulmn1', BLOOMFILTER => '
2013-12-25 14:50:31
1060
原创 BDTC 参会总结
今天有幸能参加大数据技术会议,感受国内外的前沿技术,感觉很兴奋。来回跑了几个会场,听了11个议题,简单做个总结,做个记录,也希望能对没有参加会议的技术朋友有点帮助。带着相机去的,我所看到的ppt都有照片,有的没有听全,所以有点小缺陷。1、Hbase and HOYA 这个是Hortonworks的工程师 Ted Yu(很著名)做的演讲,去的时候已经讲了十几分钟。国外的大数据公司还是很有
2013-12-07 00:08:20
1758
原创 hive 元数据升级
hadoop集群升级到HA模式,core-site.xml 的配置:fs.defaultFS 会变成 hdfs://clusterid 的形式,与之前的 hdfs://{namenode hostname} 的形式有很大的区别。而对于hive旧的matadata,表的存储路径还是hdfs://{namenode hostname} 会造成,从hdfs上load到表的时候出现类似问题:
2013-12-05 11:41:21
4099
1
原创 hadoop2.2.0 的fairscheduler 遇到的一个问题
在使用hadoop2.2.0 的 fairscheduler的时候,出现了下面的一个问题:当多个客户端提交任务的时候,发现生成的appatempt 没有进入fairscheduler的 eventQueue,导致fairscheduler没有对该任务进行调度,而当am向scheduler请求这个作业的信息时,出现下面的问题,而且是打了很多这样的log:2013-11-27 14:27:02
2013-11-28 16:30:38
4874
转载 static class 静态类(Java)
转自: http://klcwt.iteye.com/blog/452834一般情况下是不可以用static修饰类的。如果一定要用static修饰类的话,通常static修饰的是匿名内部类。在一个类中创建另外一个类,叫做成员内部类。这个成员内部类可以静态的(利用static关键字修饰),也可以是非静态的。由于静态的内部类在定义、使用的时候会有种种的限制。所以在实际工作中用到的并
2013-11-28 11:35:53
1044
转载 hive 自带 function
hive 自带了很多函数,从网上搜集了一些,总结一下。主要的资料来源:http://www.oratea.net/?cat=15&paged=2hive 的自带 函数LIKE比较: LIKE语法: A LIKE B操作类型: strings描述: 如果字符串A或者字符串B为NULL,则返回NULL;如果字符串A符合表达式B的正则语法,则为TRUE
2013-11-22 18:52:49
4383
原创 hive 优化遇到的一个问题:hive.auto.convert.join
hive的join 有一种优化的方式:map join但是,使用这种优化的时候要小心一点,先说一下优化配置的参数:set hive.optimize.correlation=trueset hive.auto.convert.join=true当运行一个比较大的join时候,出现了下面的问题:at org.apache.hadoop.hive.ql.exec.MapOperato
2013-11-21 17:29:34
16921
原创 hadoop2.0 ha failover 遇到的问题
最近在测试hadoop2.0 的ha,当failover的时候,standby namenode 会同步active namenode的edit日志。如果edit文件比较多的时候,standby namenode会频繁的访问journalnode,由于没有同步带宽没有限制,standby namenode会将journalnode的带宽占完,导致active namenode 无法访问jour
2013-11-15 20:11:27
3131
Data Science for Business
2016-06-29
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人