- 博客(42)
- 资源 (2)
- 收藏
- 关注
原创 spark复习必看架构
1. hive on spark http://lxw1234.com/archives/2015/05/200.htm focus: RPC transfer message between client and driver.(RPC http://www.cnblogs.com/Hybird3D/p/3346582.html) optim
2017-01-10 20:31:57
317
原创 couch DB
1. url转义特殊字符需要转义(想想怎样在浏览器地址上转义特殊字符?) / -> %2F , ex:vagrant@vagrant-ubuntu-trusty-64:~/openwhisk/ansible$ curl -X GET http://localhost:5984/root_vagrant-ubuntu-trusty-64_whisks/whisk.syst
2016-06-17 07:19:40
458
原创 Bluemix cf命令
--登录cf logincf login -u lfz.carlos@gmail.com -o lfz.carlos@gmail.com -s lfz.carlos@space--上传app的war包cf push JavaWebProjectDemo -p "E:\J2EE project\JavaWebProjectDemo\target\JavaHelloWorldA
2016-06-02 02:55:33
426
原创 Bluemix 各个组件
menifest.yml: 应用applications:- path: target/JavaHelloWorldApp.war memory: 512M instances: 1 domain: mybluemix.net name: JavaWebProjectDemo host: javawebprojectdemo disk_
2016-06-02 02:52:47
285
原创 IBM bluemix Big Picture
Bluemix capabilities: framework: spring/mvc service: RDBMS/NOSQL/MSG/watson .... service cloud: public/private/micro cloud integrationwhat is special? Run Y
2016-06-02 02:26:53
519
原创 编程习惯记录
1. 对于树形结构的判断分支,不要写成:if if else ifelse可以试一下抽取出布尔表达式,like bool1 && bool2 ....
2016-05-18 23:51:48
302
翻译 flume , kafka 调试
kafka集群基本操作命令启动zookeeper zkServer.shstart/status/stop启动kafka ./kafka-server-start.sh-daemon ../config/server.properties列出所有 topicskafka-topics.sh --
2016-05-03 00:36:54
410
原创 kafka远程客户端 运行producer线程 时报 Unable to connect to zookeeper server within timeout: 400
问题:一个小问题,在配置好(1)kafka集群,(2)kafka的producer和consumer端码好后,会报Unable to connect to zookeeper server within timeout: 400。我的环境:本机windows上运行集群(独立的3台linux虚拟机),NAT连接方式在windows上的eclipse启动producer线程,线
2016-04-28 23:40:20
15757
1
原创 OLAP与OLAP
OLTP 单词查询数据量小 响应快 在线处理OLAP 单词查询数据量大 查询逻辑复杂(BI 概念: 聚合,上卷,下钻) 离线处理基础架构方面:工具: *全文索引 Elasticsearch 应用于OLTP,没有搜索效率下降问题,但内存开销大,到排序索引查询结构
2016-04-28 16:37:23
401
转载 maven
http://blog.youkuaiyun.com/andyliulin/article/details/46544555http://www.oschina.net/question/1172172_181263http://www.cnblogs.com/lanxuezaipiao/p/3291641.htmlhttp://blog.youkuaiyun.com/zhangdaiscott/articl
2016-04-20 05:32:20
269
原创 java命令行路径
问题: classloader在load class的时候load class的路径上是怎样的过程?1. -jar 选项 告诉 classloader 执行以menifest.mf文件里的main-class为 启动类.会忽略-cp参数2. menifest.mf文件格式为Manifest-Version: 1.0 Main-Class: windows.VideoWind
2016-04-19 22:54:42
2343
原创 sqoop
sqoop: sql to hadoop原理: sql取数据+mapreduce 按主键把列分成 元素据+数据: 元素据会在导入的时候自动生成到本地目录下 范围:jdbc接口 数据--warehouse-dir
2016-03-19 15:07:48
277
原创 scala 对比java 贴
1. trait 相当于Java的特征2. forfor(i0 until a.length)for(i=0;i3. polymorphism: 类型和方法作为参数def bubbleSort[A Ordered[A]](a:Array[A]){ for(i0 until a.length){ for(j0 until a.length){
2016-03-08 01:58:03
553
原创 spark&scala集合
本帖重点关注scala以及兼容到spark平台上的数据集合,包括Iterator Seq Array Set List Tuple RDDDStream1. Iterator 慎用此类型循环事特别注意,由于就是follow Iterator的概念,所以遍历一次后,往往再遍历就为空Iterator了,例如:val mydata = Sour
2016-03-04 03:20:03
362
原创 questions
1. val vector = data.map{line=> val record = line.split("::") match{case Array(user,product,rate,timestamp)=> (timestamp.toInt % 10 , Rating(user.toInt,product.toInt,rate.toDouble))
2016-03-03 22:45:21
267
原创 Spark RDD
def compute(split: Partition, context: TaskContext): Iterator[T]protected def getPartitions: Array[Partition]protected def getDependencies: Seq[Dependency[_]] = depsprotected def ge
2016-03-02 21:14:27
303
原创 spark优化
1. 多次filter操作后,RDD中partition的数据量会越来越少,当很小接近于空的时候,会损耗性能 解决: 利用coalesce 或 repartition减少RDD中partition数量
2016-03-02 20:51:20
337
原创 spark 各组件研究
createTaskScheduler case SPARK_REGEX(sparkUrl) SparkDeploySchedulerBackend CoarseGrainedExecutorBackend case LaunchTask(data) (1)
2016-03-02 19:13:40
753
原创 spark MLlib
1. kmeans kmeans++ 解决kmeans的初值点个数设置,点位置初始化问题,具体: 利用区间采样的方法=> 在一组数据中怎么随机选取值较大的数,例如选取若干个学习好的学生? kmeans++步骤: 从输入的数据点
2016-03-01 20:00:54
544
原创 spark streaming 编程
1. DStream 找不到 reduceByKey http://www.68idc.cn/help/jiabenmake/qita/20150115172034.html
2016-03-01 05:19:46
269
原创 spark streaming & storm
spark streaming 针对批处理 吞吐量大 storm 针对一条记录 及时性较高 spark生态系统兼容性差
2016-03-01 04:54:06
212
原创 spark streaming
Streaming general structureDStream操作场景 无状态 只考虑一个RDD 状态 考虑一组RDDs的累加值 window 窗口长度 滑动长度code structure://一秒采样一次数据val ssc = new
2016-03-01 04:02:20
409
原创 Hive QL
create tableinsertloadexplainhttps://cwiki.apache.org/confluence/display/Hive/LanguageManual
2016-02-29 05:14:01
334
原创 hive 结构
HIVEMetaStrore element:table...Driver compiler parsing:get table.... from metastore -> logical planoptimizer optimze logical plan using DAGexecuter generate physical plan and
2016-02-29 04:38:31
356
原创 transformation action
val num = sc.parallelize(1 to 10,3)指定3个分片(cpu)//transformationval doublenum = num.map(_*2)val threenum = doublenum.filter(_ % 3 ==0)//actiondoublenum.collect()threenum.collect()
2016-02-29 04:23:59
295
原创 spark概览
jobstageTaskTransformationAction RDDpersist or cache共享变量broadcast variable累加器Driver programSparkConfSparkContextcloseSpark shell系统自动初始化SparkContext并行化
2016-02-27 06:42:24
427
原创 Hadoop族 版本变化
1. Hbase变化: 0.94.6时public class Put extends Mutation implements HeapSize, Writable, Comparable 0.95.2时public class Put extends Mutation implements HeapSize, Comparable影响: public s
2016-02-26 01:54:22
562
转载 Hbase 基本操作
1.Eclipse中运行JAVA代码远程操作HBase的示例http://blog.youkuaiyun.com/kkdelta/article/details/204573192. Windows下安装HBasehttp://blog.youkuaiyun.com/kangkanglou/article/details/30748139
2016-02-25 05:34:54
452
原创 Connection refused Will not attempt to authenticate using SASL
#描述:启动 start-hbase.sh 或者 JAVA 代码连接hbase时会出现 SASL 问题# 错误信息:WARN org.apache.zookeeper.ClientCnxn: Session 0x0 for server null, unexpected error, closing socket connection and attempt
2016-02-25 05:31:05
1161
转载 eclipse 连接 habse 问题汇总
Exception in thread "main" java.lang.NoClassDefFoundError: com/google/protobuf/ServiceExceptionhttp://doc.okbase.net/ll6863/archive/122534.htmljava.lang.ClassNotFoundException: org.apa
2016-02-25 04:04:39
888
原创 hbase sql 基本命令模板
create 'member','member_id','address,''info'disable 'member'alter 'member',{NAME='address','METHOD=''delete'}enable 'member'put 'member','wo','address:age' ,'26'describe 'member
2016-02-24 05:49:01
436
原创 hive install
1. download https://archive.apache.org/dist/hive/hive-0.11.0/hive-0.11.0-bin.tar.gz2. configure in conf/hive-env.sh HADOOP_PATH HIVE_CONF_DIR
2016-02-23 23:39:20
310
转载 怎样理解 R 里面的 evironment
见 http://blog.obeautifulcode.com/R/How-R-Searches-And-Finds-Stuff/
2015-10-03 05:21:58
339
原创 quantmod getsymbols 里面出现 Error in download.file cannot open URL
错误如下 Error in download.file(paste(google.URL, "q=", Symbols.name, "&startdate=", : cannot open URL 'http://finance.google.com/finance/historical?q=ORCL&startdate=Aug+20,+2013&enddate=Aug+22,
2015-10-03 05:04:40
3027
2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人