分布式、软件工程、matlab
码海岛主
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
基于Spark的逻辑回归实验
spark是基于hadoop的一个开源平台,最新的spark已经可以支持很多分布式的机器学习算法,这里用逻辑回归算法来初步接触这个平台。spark的安装步骤已经由师兄完成,暂时没了解,不过看官网(http://spark.apache.org/)的文档还是很简单的,直接下载已有的安装包就行。系统是linux,spark版本为1.5.2,准备基于官网自带的逻辑回归样例进行改编。首先需要明确,一原创 2017-09-05 12:33:39 · 614 阅读 · 0 评论 -
MATLAB使用备注(二)
1、关于打开程序后路径设定:比如想要把D:/save/这个目录作为初始路径。在matlab的主界面有一个set path,这个只是设置搜索路径,因此哪怕把D:/save/这个路径放到这里面的最顶端也没用。正确的设置方法是右键桌面上的matlab快捷方式,属性,再把里面初始位置一栏设置成D:/save/即可2、cell数组转字符串数组如果有一组字符串存在了cell数组中,那么只要...原创 2017-09-05 12:35:11 · 818 阅读 · 0 评论 -
spin与ispin在win7上的安装注意事…
今天安装spin,主要步骤为:1、在http://spinroot.com/spin/Src/index.html下载最新的spin源码包2、下载安装cygwin,这是一个在win7上运行类UNIX环境的软件平台,要用它来对spin源码包进行make等编译。3、利用cygwin安装好spin之后,从官网下载ispin.tcl并放到cygwin的bin目录,这里需要注意的是,要使ispi...原创 2017-09-05 12:32:51 · 740 阅读 · 0 评论 -
Spin与Ispin使用记录
序——这篇文章用来记录使用spin的各种注意事项1、cygwin的根目录的真实路径今天试着用了ispin,需要注意的一点是,cygwin(即spin运行的平台)有一个专有目录,如果在ispin中点击open,打开的目录中有文档,音乐,下载,图片等等文件夹,这个咋一看还以为是本机C盘下的那个用户目录.....其实只是很类似,这个目录的真实路径在cygwin的安装目录下。2、i...原创 2017-09-05 12:32:54 · 2174 阅读 · 0 评论 -
安装KeY相关事项
纠结了几天,终于把KeY System安装好了,先吐槽一下,这几天的时间主要花在寻找上了......坑爹的百度各种找不到资源,而且KeY这个关键字也不好搜......感谢宽哥提供的资源,http://www.key-project.org,这个才是正确的官方网址。另外,不需要用JDK的开发环境,只需要安装JRE就可以支持程序的运行了安装好JDK之后,剩下的步骤按照官网上来就行,...原创 2017-09-05 12:33:10 · 348 阅读 · 0 评论 -
SparkInternal阅读笔记(一)
这段时间一直在阅读SparkInternal(https://github.com/JerryLead/SparkInternals)这篇文档,里面很详细的分析了spark的工作原理,但又不是单纯的代码走读,加入了许多作者的理解以及注释,值得刚接触spark的朋友阅读。一、spark部署概览:一个典型的spark工作集群图如下:集群分为Master和Worker,相当于hadoop的M原创 2017-09-05 12:34:23 · 501 阅读 · 0 评论 -
spark论文阅读笔记(三)
一、作业调度(Job scheduler)在spark中,一个作业一般就是对一个RDD的action操作。当该操作发生时,调度器会根据记录,为这个程序构建一个若干阶段组成的DAG(有向无环图),如下:每个阶段(stage)的划分标准是,尽可能多的包含连续的窄依赖(如上图的stage 2),各个阶段通过宽依赖对应的操作划分,如stage2、3之间的join操作。有了这个DAG,接下来调度器原创 2017-09-05 12:34:15 · 378 阅读 · 0 评论 -
spark论文阅读笔记(二)
RDD中的宽依赖和窄依赖在spark中,系统通过一个通用接口来抽象地表示每个RDD,这个接口的内容包括:一组分区(partition),指向父RDD的依赖关系,一个可以从父RDD得到该RDD的计算函数,分区策略,数据位置。这里详细讲解一下依赖关系:依赖关系被分为两种:1、 窄依赖:在这种依赖中,父RDD的一个分区最多只会被子RDD的一个分区使用,即父RDD的分区内数据是不可分割的原创 2017-09-05 12:34:12 · 296 阅读 · 0 评论 -
spark论文阅读笔记(一)
首先需要明确的是,spark的作者MateiZaharia提出的应该是一个名为弹性分布式数据集的概念,即为RDD。而所谓的spark,是一个基于scala的框架,是RDD抽象概念的实现。有了这个前提,我们可以开始正式地学习RDD和spark。一、 RDD概述:从形式上看,RDD是一个可分区的只读记录集合,创建RDD的方法只有两种:1、通过从稳定的存储器,比如硬盘上读取。2、从其他的RDD原创 2017-09-05 12:34:09 · 384 阅读 · 0 评论 -
spark说明手册阅读笔记
Use method to avoid creatingintermediate variables:即把程序写成下列形式:Sc.textfile().map().reduceBykey()这样就不需要储存如map()返回值这样的中间向量。transformation属于惰性方法,对于一个使用了transformation的RDD,只有当接下来要用这个被transformation处理原创 2017-09-05 12:34:06 · 246 阅读 · 0 评论 -
基于hadoop+mahout的逻辑回归实验
今天参照http://www.netfoucs.com/article/fansy1990/76224.html和http://jayatiatblogs.blogspot.hk/2013/05/running-mahouts-logistic-regression.html两篇博文,开始了hadoop上的逻辑回归实验。在hadoop上进行机器学习实验,需要用到一个高层的框架名为m原创 2017-09-05 12:33:48 · 1044 阅读 · 0 评论 -
MATLAB使用备注(一)
今天算第一次尝试用matlab写一份正式的工程,真到用的时候才明白自己那点matlab水平还真不够看......以后这类文章用于记录matlab使用的时候容易出错的地方或者小技巧1、关于矩阵合并,需要分清行合并与列合并如A=[1,2];B=[3,4];如果C=[A,B],则得到的是行合并,C=[1 2 3 4]如果C=[A;B],则得到的是列合并,C=[1 2 3...原创 2017-09-05 12:33:02 · 3798 阅读 · 0 评论
分享