passer199101-优快云博客

转载脚本输出01到15的数值之seq的用法

http://fantefei.blog.51cto.com/2229719/1172813seq -w 1 10

2017-10-20 14:35:59 1049

https://superuser.com/questions/52124/what-s-a-good-way-to-extract-rar-files-on-the-mac Using Homebrew, in a terminal type:brew install unrarto use it just navigate to your file and typeunrar x <filen

2017-09-22 11:16:40 2365 1

原创 kafka数据同步/镜像工具 kafka mirror maker

http://blog.youkuaiyun.com/rkjava/article/details/51771466

2017-09-11 18:00:55 1302 1

原创 zeppelin mysql配置

http://bigdatums.net/2017/03/02/connecting-apache-zeppelin-to-mysql/

2017-07-08 14:29:31 895

原创 How can I convert printStackTrace message to a string?

https://stackoverflow.com/questions/1149703/how-can-i-convert-a-stack-trace-to-a-string

2017-06-30 12:34:17 585

原创 /etc/crontab文件和crontab -e命令区别

http://www.cnblogs.com/xd502djj/p/4292781.html

2017-06-29 15:14:47 6079

原创将 Spark 中的文本转换为 Parquet 以提升性能

https://www.ibm.com/developerworks/cn/analytics/blog/ba-parquet-for-spark-sql/index.html

2017-06-26 11:23:24 2326 1

原创 Spark将数据压缩存储

/tmp/dj/20170622.1498060818603为json数据将数据压缩存储成parquetval logs = spark.read.json("/tmp/dj/20170622.1498060818603")//logs.coalesce(2).write.option("compression","gzip").json("/tmp/dj/json2")logs.coale

2017-06-23 17:26:38 2419 3

原创为项目重新设置git remote url

git remote set-url origin https://xxx@github.org/hello/etl.git

2017-06-20 17:18:35 9751

原创 scala将double转换为long

https://stackoverflow.com/questions/19647525/how-to-convert-any-a-number-to-a-longx.asInstanceOf[Number].longValue

2017-06-19 12:27:28 3896

原创 spark stream上创建对象实例

kafkaStream.foreachRDD { rdd => rdd.foreachPartition { partition => //每次在这里创建一个kafka producer实例是不可取的 } }上边的方式会造通过kafka producer发送的数据部分丢失. 应该用如下的方式, 下边的这种方

2017-06-06 15:00:50 485 1

原创 Elasticsearch数据重新索引

https://www.elastic.co/guide/en/elasticsearch/reference/current/docs-reindex.htmlPOST _reindex{ "source": { "index": "twitter" }, "dest": { "index": "new_twitter", "op_type": "create

2017-05-31 14:57:00 2566

原创 Spark中的一些概念

一次action操作会触发RDD的延迟计算，我们把这样的一次计算称作一个Job。窄依赖指的是：每个parent RDD 的 partition 最多被 child RDD的一个partition使用宽依赖指的是：每个parent RDD 的 partition 被多个 child RDD的partition使用窄依赖每个child RDD 的partition的生成操作都是可以并行的

2017-05-31 14:54:38 403

原创 spark读取hdfs文件的路径使用正则表达式

spark.read.json("/flume/product/160/raw1/2017/05/23/*[1-9]")读取文件,文件以数字结尾.

2017-05-23 18:26:07 4254

原创使用zookeeper命令行

./zkCli.sh -server hostname

2017-05-23 15:42:04 677

原创通过url删除ES中的数据

curl -XDELETE "http://test-hostname:9200/product*_201704*"

2017-05-18 14:10:07 6301 1

原创 SB

HOW SB THIS RULE IS.

2017-05-08 11:31:02 477

原创 linux中vi的使用

在编辑模式中，采用:r命令读取文件内容到当前缓冲区文本替换:1,5 s/Spark/spark/g:% s/\<the\>/The/g

2017-05-04 14:45:02 351

原创在vim中移动光标

1.移动到某个特定字符采用fx命令进行字符定位，例如fs可以定位到同一行s下一次现出的位置。采用Fx命令，可以将光标定位到x字符在同一行上一次出现的位置 2.按word进行移动使用w或nw将光标向前移动。其中n为数字。使用b或nb将光标向后移动。其中n为数字。 3.新行输入 o表示在当行下的下方创建一个新行，O表示在当前行的上方打开一个新行//O在光标所在行的上方插入新行【

2017-05-03 18:47:37 460

原创 Linux Shell中的$#、$@、$0

http://www.jianshu.com/p/03b6fa705a82

2017-04-21 17:05:41 569

原创 linux dirname的使用

http://www.cnblogs.com/kevingrace/p/6182573.html

2017-04-21 16:56:41 479

原创 scala match的运用

单个变量 var clusterManager: Int = arg match { case "yarn" => YARN case "yarn-client" | "yarn-cluster" => println(s"Master ${arg} is deprecated since 2.0." +

2017-04-07 12:20:34 1407

原创 var exitFn: Int => Unit = (exitCode: Int) => System.exit(exitCode)解析

var exitFn: Int => Unit = (exitCode: Int) => print(exitCode)上边代码看上去挺费劲的，不过后来稍有所悟，记录于此。 var exitFn: Int => Unit这里定义了一个可变函数exitFn，参数是一个Int类型的值，返回Unit类型的值，这个Unit类型和java中的void的有点像，就是不需要返回数据。那么它的具体实现是什么呢

2017-04-07 11:47:22 471

原创谈谈Scala中的枚举

http://kubicode.me/2015/06/06/Scala/Enum-in-Scala/

2017-04-07 11:09:23 3952

原创 spark stream冷启动处理kafka中积压的数据

因为首次启动JOB的时候，由于冷启动会造成内存使用太大，为了防止这种情况出现，限制首次处理的数据量spark.streaming.backpressure.enabled=truespark.streaming.backpressure.initialRate=200应该是在spark-submit的命令中用–conf指定。 http://qindongliang.iteye.com/blog/

2017-04-06 12:06:28 3321

原创 springMVC下无法加载静态资源文件（js、css、image）

http://blog.youkuaiyun.com/wangqingqi20005/article/details/48134649

2017-04-05 13:50:25 425

原创 Spark优化之二：集群上运行jar程序，状态一直Accepted且不停止不报错

http://www.cnblogs.com/shixiangwan/p/6195297.html

2017-03-27 21:05:23 4317

原创 ES内存优化

参考http://elasticsearch.cn/article/32 _optimize 优化前GET _cat/indices/product95_new_users?v\&h=index,docs.count,docs.deleted,store.size,tmproduct95_new_users 203037 24838 326.6mb 1.5mb 优化方法POST product

2017-03-20 18:54:00 1000

原创用人话解释机器学习中的Logistic Regression（逻辑回归）

这是我见过的最容易看懂的介绍逻辑回归的文章。对于其他很多介绍机器学习的文章，我表示看不懂，专业术语太多，专业性太强（其实本来想说，我甚鄙视之，但是想想算了，他们又不是写给小白看的）。

2017-03-17 11:04:45 776

原创 linux之sed

http://www.runoob.com/linux/linux-comm-sed.html

2017-03-16 18:36:10 386

原创 Spark Streaming集成Kafka总结

参考 http://colobu.com/2015/01/05/kafka-spark-streaming-integration-summary/

2017-03-14 17:13:01 766

原创 IBInspectable和IBDesignable

简单来说，IBInspectable使得在Interface Builder的Attribute Inspector（属性检查器）中能够查看类的属性，而IBDesignable能实时更新视图，很厉害吧！ P.S: inspectable表示「可视的」。下面将以实际例子更加生动说明IBInspectable和IBDesignable的使用方法和效果。具体的内容请参考http://zhangb

2017-03-13 08:35:59 785

原创 Apache Spark Jobs 性能调优（一）

https://webcache.googleusercontent.com/search?q=cache:WOcm7DHa2OcJ:https://www.zybuluo.com/xiaop1987/note/76737+&cd=2&hl=zh-CN&ct=clnk

2017-03-10 18:26:00 545

原创 spark 自定义partitioner

package inpvimport org.apache.spark.Partitionerclass PvPartitioner(numParts: Int) extends Partitioner { override def numPartitions: Int = numParts override def getPartition(key: Any): Int = {

2017-03-10 18:14:27 745

原创 linux之awk

http://www.runoob.com/linux/linux-comm-awk.html

2017-03-09 15:53:42 530

原创 linux只uniq

http://os.51cto.com/art/201107/274991.htm

2017-03-09 15:30:43 287

原创 linux之cut

http://www.cnblogs.com/dong008259/archive/2011/12/09/2282679.html

2017-03-09 14:58:14 767

原创 iOS 移除CocoaPods

http://www.jianshu.com/p/552f21a989ba 上边链接中的写了如何移除CocoaPods，但是我在操作的时候发现还不完善，特记录如下：就是开Build Phases选项，然后将Pod的条目全都删除，再次运行程序，发现就正常了。

2017-03-04 17:23:44 677

原创 Linux之find

http://www.oracle.com/technetwork/cn/topics/calish-find-096463-zhs.htmlfind . -name "*.java" 下面是该命令所找到的命令的缩略清单：find . -name "*.java"./REGEXPvalidate/src/oracle/otnsamples/plsql/ConnectionManager.ja

2017-03-04 17:14:05 577

原创 maven对scala项目的编译

mvn scala:compile

2017-03-01 14:52:21 2544

hadoop2 文件读写原理

空空如也