
Spark
文章平均质量分 63
Spark、Scala 相关技术文档,学习记录,研究探索等等
bensonrachel
这个作者很懒,什么都没留下…
展开
-
(spark-shell)Scala命令行中如何批量查看多条历史命令(代码)
scala> :history 1000 可在输入里直接输入:得到更多的提示信息! All commands can be abbreviated。:h? <string> search the history:history [num] show the history (optional num is commands to show)scala> :All commands can be ab...原创 2021-09-09 14:33:38 · 857 阅读 · 1 评论 -
MMLSpark+Spark:pyspark+lightGBM应用实践
MMLSpark,即Microsoft Machine Learning for Apache Spark ,是微软开源的一个针对 Apache Spark 的深度学习和数据可视化的库。作为专门为大规模数据处理而设计的快速通用计算引擎,Apache Spark 为用户提供了创建可扩展 ML 的有力平台。新发布的 MMLSpark 能够将诸如深度学习等前沿机器学习技术应用于更大的数据集,并为用户提供能够应对诸如文本、分类数据等多种类型数据的 API , 大大提高数据分析师使用 Apache Spark 的..原创 2021-07-13 20:41:49 · 2664 阅读 · 2 评论 -
Kylin分布式分析型数据仓库-集群部署步骤小结
集群部署Kylin分布式分析型数据仓库步骤集群信息:hadoop2.6.5-CDH5.13.3版本、JDK8.151、以及Hive、Hbase、ZooKeeper、Spark(可选)。使用的Kylin版本是apache-kylin-2.4.0-bin-cdh57。下载地址:https://archive.apache.org/dist/kylin/apache-kylin-2.4.0/ .五台机器的具体ip和名字:2.创建目录:mkdir /usr/local/appscd /usr/l.原创 2021-04-19 13:41:29 · 349 阅读 · 0 评论 -
关于Spark的机器学习库Smile的应用及记录及安装Scala notebook
专栏博客Smile官方地址、需要VPN才能访问的官方文档构建Spark+smile项目,但是smile这个库目前还在更新和迭代阶段,很多由于版本和库对不上,比较多的功能只在文档里有,但是正式的github上下载的包却没有能使用的方法。Smile机器学习库是Github上的开源的由开发者haifengl开发的一款适用于Scala项目的统计机器智能和学习引擎。Smile涵盖了机器学习的各个方面,包括分类,回归,聚类,关联规则挖掘,特征选择,流形学习,多维缩放,遗传算法,缺失值插补,有效的最近邻搜索等原创 2021-04-15 20:02:04 · 966 阅读 · 0 评论 -
关于学习scala中lazy关键字的记录
最近,看到一个scala里关于lazy懒加载的关键字。测试了一遍它的使用和功能。lazy修饰变量就是为了延迟初始化。使用lazy关键字修饰变量后,只有在使用该变量时,才会调用其实例化方法。1.不使用lazy关键字。object lazy_study { def init():String={ println(1+1) return "lazy study" } def main(agrs:Array[String]): Unit = { val name =原创 2021-03-08 10:47:13 · 538 阅读 · 0 评论 -
关于学习Spark的记录
2021年第一更,在实验室呆了一个学期,写这一篇主要是想把一些容易的忘记的做过的关于Spark的记录下来。下面有两个之前mark下来的点。是关于一些spark读写问题和bug的。Note_1Note_2关于读取某些列或行的方法。数据格式如图。 Channel,Region,Fresh,Milk,Grocery,Frozen,Detergents_Paper,Delicassen2,3,12669,9656,7561,214,2674,13382,3,7057,9810,9568,1原创 2021-03-04 11:08:23 · 413 阅读 · 1 评论 -
Spark2.4.0源码(scala):自动化单元测试的实现与探索
项目场景:在spark的源码中,有一个main文件夹,同时还有一个test文件夹,里面大部分是suite后缀的scala文件,这就是测试文件。通常我们编译spark源码,会skip掉test部分以加快速度,如果我们不是skip的话,完成的就是自动化测试,这个过程并不难懂,但是这个过程也并不是很简单地就能一次跑通。耗时也比skip test多非常地多,我带测试的编译了core包,在集群上编译一共花费15小时多点。问题描述:实验环境:spark:2.4.0maven:3.6.3scala:2.1原创 2020-11-25 14:51:07 · 662 阅读 · 0 评论 -
Scala:Scaladoc的生成方法
项目场景:根据需求对spark源码进行修改后使用maven在git bash中对修改后的项目进行文档生成,即有api文档等的index.html问题描述:提示:这里描述项目中遇到的问题:例如:数据传输过程中数据不时出现丢失的情况,偶尔会丢失一部分数据APP 中接收数据代码:@Override public void run() { bytes = mmInStream.read(buffer); mHandler.obtainM原创 2020-11-11 15:41:00 · 593 阅读 · 0 评论 -
Spark:关于yarn中的application master的启动流程问题的探索
Spark:关于yarn中的AM的启动流程问题的探索Spark中的三种分布式集群部署模式:Spark:Yarn三大组件(模块)ResourceManagerNodeManagerApplicationMaster需再次明确的概念:AMSpark on YARN的两种模式具体阐述YARN-Cluster模式的AM执行流程:我自己看完的总结:Spark中的三种分布式集群部署模式:当以分布式集群部署的时候,可以根据自己集群的实际情况选择Standalone模式(Spark自带的模式)、YARN-Client模原创 2020-10-24 16:05:16 · 2548 阅读 · 1 评论