zt_12138-优快云博客

原创遗传算法常用算子

交叉：离散重组、中间重组、线性重组、正态分布交叉、模拟二进制交叉、二项式分布交叉、两点交叉、指数交叉、多点交叉、顺序交叉、部分匹配交叉、洗牌指数交叉、洗牌交叉、单点交叉、均匀分布交叉等。...

2020-03-31 17:31:28 2962

转载【Breeze】常用方法

转载自https://blog.youkuaiyun.com/u012102306/article/details/53463388导入import breeze.linalg._import breeze.numerics._Breeze创建函数: 操作名称Breeze函数对应Numpy函数全0矩阵DenseMatrix.zeros[Doub...

2019-03-24 16:49:44 793

原创【Spark】变长数组转换为Row对象（RDD to DataFrame）

在RDD转换为DataFrame时，若RDD每个元素长度未知时，可将RDD每个元素转换为Seq，利用Row.fromSeq方法将Seq转换为Row，进而转换为DataFrame。

2019-03-19 21:34:30 4928

转载【PCFGs】Probabilistic Context-Free Grammars

概率上下文无关文法follow http://www.cs.columbia.edu/~mcollins/

2019-02-16 22:15:34 252

转载【Scala】函数柯里化

def abc(x: Int)(y: Int)(implicit z: Int=10)=x+y+zdef ab=abc(2) _很强大 abc(1)(2)(3)=6abc(1)(2)=13 implicit val a=100abc(1)(2)=103

2019-02-04 13:57:52 186

转载【Scala】apply，Trait

apply在伴生对象实现类的初始化Trait特质，类似于java的接口，与抽象类不同的是，Trait可多继承。Trait中的方法可以实现，而java中的接口方法只能是抽象的。 Trait 混入：需求：在不改变类的定义的情况下，通过混入Trait来实现对某类中方法的重新定义。Trait调用链：...

2019-02-03 23:14:55 274

转载【Scala】类和对象，构造器

private：自己和伴生对象能访问private[this]：只有自己能访问，伴生对象都不能访问主构造器：例：class Student(var id:Int, val name:String， xx: String)xx则默认为 private val xx 辅助构造器：不能写修饰符。例：class Student private[this] ( var id: ...

2019-02-03 16:08:00 214

转载【Scala】数据类型

Any ：所有其他类的父类，包括值类型AnyVal，和引用类型AnyRefAnyVal：所有值类型的父类，包括Int，Double，Boolean，Unit等等AnyRef：所有引用类型的父类，包括NullNull：所有引用类型的子类，只有一个实例，即nullNothing：所有类的子类Unit：只有一个实例，即()...

2019-02-03 13:04:42 378

原创 spark常用方法(scala):分组-应用-联合

对dataframe分组-应用-联合：df.map(item->( , ,..., )) //将Row map成元祖.groupByKey(...).flatMapGroups((_, info) => {val list = info.toList.sortBy(...)list.map(item => {//}).toIterator})....

2018-12-18 11:32:38 730

原创【pyspark+anaconda】环境配置问题

问题：pyspark中用到的pyarrow模块在计算节点上无法导入原因：anaconda须在所有节点上安装，且保证用户所用的python指向正确解决：所有节点上安装了anaconda，保证所有anaconda所有用户都能访问与执行。再将/usr/bin目录下的python软连接到anaconda目录下的python。使anaconda中的python为默认 ...

2018-12-05 17:31:17 924

原创 pyspark求近似分位数。添加index

求近似分位数：DataFrame.approxQuantile()方法对DataFrame添加index：先建窗口，再用sql.functions的row_number()例：from pyspark.sql import functions as Fw = Window.orderBy("aggressive")withIndexDF = tmpDF.withCo...

2018-11-30 17:30:32 3461

原创用于Spark的Jupyter和Zeppelin安装(Ubuntu)

前提：安装好了Hadoop和SparkJupyter下载Anaconda Distribution最新版本参考文章基于pyspark 和scala spark的jupyter notebook 安装以及anaconda官方文档安装：bash $AnacondaDistributionFilevim ~/.bashrcexport PYSPARK_DRIVER_PYTHON=ju...

2018-07-20 16:06:01 1234

转载 Hadoop+Spark分布式安装（Ubuntu）

Hadoop安装教程_单机/伪分布式配置 Hadoop集群安装配置教程 Spark 2.0分布式集群环境搭建按上述搭建后，无法以spark on yarn运行。参考spark on yarn 配置及异常解决，配置各节点的yarn-site.xml，添加 <property> <name>yarn.nodemanager.pmem-check-enable...

2018-07-20 13:50:00 393

qq_26921849的博客