
高性能计算
文章平均质量分 54
shenyanxxxy
这个作者很懒,什么都没留下…
展开
-
spark streaming 中的singleton pattern
我们再spark streaming 中用了singleton pattern模式大大的减少了初始化时间,速度快了4倍。在[Spark Streaming Guide中](http://spark.apache.org/docs/latest/streaming-programming-guide.html),dstream.foreachRDD { rdd => rdd.foreachPartition { partitionOfRecords => // Connecti原创 2021-07-17 11:21:14 · 359 阅读 · 2 评论 -
当使用spark 遇到 data skew 数据不均衡问题时解决方法
那什么是spark 数据不均衡的问题呢?当某一个column 的value 出现特别多次,比如1000次以上。然后table1 与table2 join 的时候,就会导致某个分区的task 执行时间特别长。详见下图,下图就是在spark join操作的时候遇到的数据分布不均衡,导致的某个task 执行时间过长。比如,table1:itemid userid 123 abc 123 abce 123 acd 123 acd ta.原创 2020-11-01 16:47:15 · 725 阅读 · 1 评论 -
算法导论-傅里叶变换
系数形式表示的多项式的快速乘法,通过精心挑选求指点,将系数表达转换为点值表达,然后运算,再将点值表达转换成系数表达。而系数表达到点值表达时间为O(nlogn) 点值运算时间复杂度为O(n)再从点值表示转换成系数表示花费时间为O(logn),所以总的时间复杂度从原来的O(n2)到了现在的O(nlogn)。 管理员在2009年8月13日编辑了该文原创 2013-08-06 10:57:30 · 940 阅读 · 0 评论 -
maven的安装方法
1.首先到Maven官网下载安装文件,目前最新版本为3.0.3,下载文件为apache-maven-3.0.3-bin.tar.gz,下载可以使用wget命令;2.进入下载文件夹,找到下载的文件,运行如下命令解压,并安装到/usr/local目录当中tar -xvf apache-maven-3.0.3-bin.tar.gzmv -rf apache-maven-3.0.3 /us转载 2013-08-17 09:26:10 · 780 阅读 · 0 评论