- 博客(1178)
- 资源 (1)
- 收藏
- 关注
转载 脚本输出01到15的数值之seq的用法
http://fantefei.blog.51cto.com/2229719/1172813seq -w 1 10
2017-10-20 14:35:59
1049
原创 Mac rar文件解压
https://superuser.com/questions/52124/what-s-a-good-way-to-extract-rar-files-on-the-mac Using Homebrew, in a terminal type:brew install unrarto use it just navigate to your file and typeunrar x <filen
2017-09-22 11:16:40
2365
1
原创 kafka数据同步/镜像工具 kafka mirror maker
http://blog.youkuaiyun.com/rkjava/article/details/51771466
2017-09-11 18:00:55
1302
1
原创 zeppelin mysql配置
http://bigdatums.net/2017/03/02/connecting-apache-zeppelin-to-mysql/
2017-07-08 14:29:31
895
原创 How can I convert printStackTrace message to a string?
https://stackoverflow.com/questions/1149703/how-can-i-convert-a-stack-trace-to-a-string
2017-06-30 12:34:17
585
原创 /etc/crontab文件和crontab -e命令区别
http://www.cnblogs.com/xd502djj/p/4292781.html
2017-06-29 15:14:47
6079
原创 将 Spark 中的文本转换为 Parquet 以提升性能
https://www.ibm.com/developerworks/cn/analytics/blog/ba-parquet-for-spark-sql/index.html
2017-06-26 11:23:24
2326
1
原创 Spark将数据压缩存储
/tmp/dj/20170622.1498060818603为json数据 将数据压缩存储成parquetval logs = spark.read.json("/tmp/dj/20170622.1498060818603")//logs.coalesce(2).write.option("compression","gzip").json("/tmp/dj/json2")logs.coale
2017-06-23 17:26:38
2419
3
原创 为项目重新设置git remote url
git remote set-url origin https://xxx@github.org/hello/etl.git
2017-06-20 17:18:35
9751
原创 scala将double转换为long
https://stackoverflow.com/questions/19647525/how-to-convert-any-a-number-to-a-longx.asInstanceOf[Number].longValue
2017-06-19 12:27:28
3896
原创 spark stream上创建对象实例
kafkaStream.foreachRDD { rdd => rdd.foreachPartition { partition => //每次在这里创建一个kafka producer实例是不可取的 } }上边的方式会造通过kafka producer发送的数据部分丢失. 应该用如下的方式, 下边的这种方
2017-06-06 15:00:50
485
1
原创 Elasticsearch数据重新索引
https://www.elastic.co/guide/en/elasticsearch/reference/current/docs-reindex.htmlPOST _reindex{ "source": { "index": "twitter" }, "dest": { "index": "new_twitter", "op_type": "create
2017-05-31 14:57:00
2566
原创 Spark中的一些概念
一次action操作会触发RDD的延迟计算,我们把这样的一次计算称作一个Job。 窄依赖指的是:每个parent RDD 的 partition 最多被 child RDD的一个partition使用 宽依赖指的是:每个parent RDD 的 partition 被多个 child RDD的partition使用 窄依赖每个child RDD 的partition的生成操作都是可以并行的
2017-05-31 14:54:38
403
原创 spark读取hdfs文件的路径使用正则表达式
spark.read.json("/flume/product/160/raw1/2017/05/23/*[1-9]")读取文件,文件以数字结尾.
2017-05-23 18:26:07
4254
原创 通过url删除ES中的数据
curl -XDELETE "http://test-hostname:9200/product*_201704*"
2017-05-18 14:10:07
6301
1
原创 linux中vi的使用
在编辑模式中,采用:r命令读取文件内容到当前缓冲区 文本替换:1,5 s/Spark/spark/g:% s/\<the\>/The/g
2017-05-04 14:45:02
351
原创 在vim中移动光标
1.移动到某个特定字符 采用fx命令进行字符定位,例如fs可以定位到同一行s下一次现出的位置。 采用Fx命令,可以将光标定位到x字符在同一行上一次出现的位置 2.按word进行移动 使用w或nw将光标向前移动。其中n为数字。 使用b或nb将光标向后移动。其中n为数字。 3.新行输入 o表示在当行下的下方创建一个新行,O表示在当前行的上方打开一个新行//O在光标所在行的上方插入新行【
2017-05-03 18:47:37
460
原创 scala match的运用
单个变量 var clusterManager: Int = arg match { case "yarn" => YARN case "yarn-client" | "yarn-cluster" => println(s"Master ${arg} is deprecated since 2.0." +
2017-04-07 12:20:34
1407
原创 var exitFn: Int => Unit = (exitCode: Int) => System.exit(exitCode)解析
var exitFn: Int => Unit = (exitCode: Int) => print(exitCode)上边代码看上去挺费劲的,不过后来稍有所悟,记录于此。 var exitFn: Int => Unit这里定义了一个可变函数exitFn,参数是一个Int类型的值,返回Unit类型的值,这个Unit类型和java中的void的有点像,就是不需要返回数据。 那么它的具体实现是什么呢
2017-04-07 11:47:22
471
原创 spark stream冷启动处理kafka中积压的数据
因为首次启动JOB的时候,由于冷启动会造成内存使用太大,为了防止这种情况出现,限制首次处理的数据量spark.streaming.backpressure.enabled=truespark.streaming.backpressure.initialRate=200应该是在spark-submit的命令中用–conf指定。 http://qindongliang.iteye.com/blog/
2017-04-06 12:06:28
3321
原创 springMVC下无法加载静态资源文件(js、css、image)
http://blog.youkuaiyun.com/wangqingqi20005/article/details/48134649
2017-04-05 13:50:25
425
原创 Spark优化之二:集群上运行jar程序,状态一直Accepted且不停止不报错
http://www.cnblogs.com/shixiangwan/p/6195297.html
2017-03-27 21:05:23
4317
原创 ES内存优化
参考http://elasticsearch.cn/article/32 _optimize 优化前GET _cat/indices/product95_new_users?v\&h=index,docs.count,docs.deleted,store.size,tmproduct95_new_users 203037 24838 326.6mb 1.5mb 优化方法POST product
2017-03-20 18:54:00
1000
原创 用人话解释机器学习中的Logistic Regression(逻辑回归)
这是我见过的最容易看懂的介绍逻辑回归的文章。对于其他很多介绍机器学习的文章,我表示看不懂,专业术语太多,专业性太强(其实本来想说,我甚鄙视之,但是想想算了,他们又不是写给小白看的)。
2017-03-17 11:04:45
776
原创 Spark Streaming集成Kafka总结
参考 http://colobu.com/2015/01/05/kafka-spark-streaming-integration-summary/
2017-03-14 17:13:01
766
原创 IBInspectable和IBDesignable
简单来说,IBInspectable使得在Interface Builder的Attribute Inspector(属性检查器)中能够查看类的属性,而IBDesignable能实时更新视图,很厉害吧! P.S: inspectable表示「可视的」。 下面将以实际例子更加生动说明IBInspectable和IBDesignable的使用方法和效果。 具体的内容请参考http://zhangb
2017-03-13 08:35:59
785
原创 Apache Spark Jobs 性能调优(一)
https://webcache.googleusercontent.com/search?q=cache:WOcm7DHa2OcJ:https://www.zybuluo.com/xiaop1987/note/76737+&cd=2&hl=zh-CN&ct=clnk
2017-03-10 18:26:00
545
原创 spark 自定义partitioner
package inpvimport org.apache.spark.Partitionerclass PvPartitioner(numParts: Int) extends Partitioner { override def numPartitions: Int = numParts override def getPartition(key: Any): Int = {
2017-03-10 18:14:27
745
原创 linux之cut
http://www.cnblogs.com/dong008259/archive/2011/12/09/2282679.html
2017-03-09 14:58:14
767
原创 iOS 移除CocoaPods
http://www.jianshu.com/p/552f21a989ba 上边链接中的写了如何移除CocoaPods,但是我在操作的时候发现还不完善,特记录如下: 就是开Build Phases选项,然后将Pod的条目全都删除,再次运行程序,发现就正常了。
2017-03-04 17:23:44
677
原创 Linux之find
http://www.oracle.com/technetwork/cn/topics/calish-find-096463-zhs.htmlfind . -name "*.java" 下面是该命令所找到的命令的缩略清单:find . -name "*.java"./REGEXPvalidate/src/oracle/otnsamples/plsql/ConnectionManager.ja
2017-03-04 17:14:05
577
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人