- 博客(13)
- 收藏
- 关注
原创 遗传算法常用算子
交叉:离散重组、中间重组、线性重组、正态分布交叉、模拟二进制交叉、二项式分布交叉、两点交叉、指数交叉、多点交叉、顺序交叉、部分匹配交叉、洗牌指数交叉、洗牌交叉、单点交叉、均匀分布交叉等。...
2020-03-31 17:31:28
2917
转载 【Breeze】常用方法
转载自https://blog.youkuaiyun.com/u012102306/article/details/53463388导入import breeze.linalg._import breeze.numerics._Breeze创建函数: 操作名称Breeze函数对应Numpy函数全0矩阵DenseMatrix.zeros[Doub...
2019-03-24 16:49:44
737
原创 【Spark】变长数组转换为Row对象(RDD to DataFrame)
在RDD转换为DataFrame时,若RDD每个元素长度未知时,可将RDD每个元素转换为Seq,利用Row.fromSeq方法将Seq转换为Row,进而转换为DataFrame。
2019-03-19 21:34:30
4889
转载 【PCFGs】Probabilistic Context-Free Grammars
概率上下文无关文法follow http://www.cs.columbia.edu/~mcollins/
2019-02-16 22:15:34
227
转载 【Scala】函数柯里化
def abc(x: Int)(y: Int)(implicit z: Int=10)=x+y+zdef ab=abc(2) _很强大 abc(1)(2)(3)=6abc(1)(2)=13 implicit val a=100abc(1)(2)=103
2019-02-04 13:57:52
170
转载 【Scala】apply,Trait
apply在伴生对象实现类的初始化Trait特质,类似于java的接口,与抽象类不同的是,Trait可多继承。Trait中的方法可以实现,而java中的接口方法只能是抽象的。 Trait 混入:需求:在不改变类的定义的情况下,通过混入Trait来实现对某类中方法的重新定义。Trait调用链:...
2019-02-03 23:14:55
255
转载 【Scala】类和对象,构造器
private:自己和伴生对象能访问private[this]:只有自己能访问,伴生对象都不能访问 主构造器:例:class Student(var id:Int, val name:String, xx: String)xx则默认为 private val xx 辅助构造器:不能写修饰符。例:class Student private[this] ( var id: ...
2019-02-03 16:08:00
186
转载 【Scala】数据类型
Any :所有其他类的父类,包括值类型AnyVal,和引用类型AnyRefAnyVal:所有值类型的父类,包括Int,Double,Boolean,Unit等等AnyRef:所有引用类型的父类,包括NullNull:所有引用类型的子类,只有一个实例,即nullNothing:所有类的子类Unit:只有一个实例,即()...
2019-02-03 13:04:42
347
原创 spark常用方法(scala):分组-应用-联合
对dataframe分组-应用-联合:df.map(item->( , ,..., )) //将Row map成元祖.groupByKey(...).flatMapGroups((_, info) => {val list = info.toList.sortBy(...)list.map(item => {//}).toIterator})....
2018-12-18 11:32:38
682
原创 【pyspark+anaconda】环境配置问题
问题:pyspark中用到的pyarrow模块在计算节点上无法导入原因:anaconda须在所有节点上安装,且保证用户所用的python指向正确解决:所有节点上安装了anaconda,保证所有anaconda所有用户都能访问与执行。再将/usr/bin目录下的python软连接到anaconda目录下的python。使anaconda中的python为默认 ...
2018-12-05 17:31:17
882
原创 pyspark求近似分位数。添加index
求近似分位数:DataFrame.approxQuantile()方法 对DataFrame添加index:先建窗口,再用sql.functions的row_number()例:from pyspark.sql import functions as Fw = Window.orderBy("aggressive")withIndexDF = tmpDF.withCo...
2018-11-30 17:30:32
3410
原创 用于Spark的Jupyter和Zeppelin安装(Ubuntu)
前提:安装好了Hadoop和SparkJupyter下载Anaconda Distribution最新版本 参考文章基于pyspark 和scala spark的jupyter notebook 安装以及anaconda官方文档安装:bash $AnacondaDistributionFilevim ~/.bashrcexport PYSPARK_DRIVER_PYTHON=ju...
2018-07-20 16:06:01
1192
转载 Hadoop+Spark分布式安装(Ubuntu)
Hadoop安装教程_单机/伪分布式配置 Hadoop集群安装配置教程 Spark 2.0分布式集群环境搭建 按上述搭建后,无法以spark on yarn运行。参考spark on yarn 配置及异常解决,配置各节点的yarn-site.xml,添加 <property> <name>yarn.nodemanager.pmem-check-enable...
2018-07-20 13:50:00
369
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人