
spark机器学习
农民小飞侠
如果放弃了,那还谈什么理想
展开
-
Spark shell退出操作以及出现问题的解决方法
启动spark的操作是在其根目录下输入,在终端中输入: ./bin/spark-shell退出的正确操作是::quit然而我们的错误操作是:Ctrl+C或Z这样就会在重启的时候报错。wugaosheng:spark-2.2.0-bin-hadoop2.7 eric$ ./bin/spark-shell Using Spark's defau原创 2017-10-06 17:24:13 · 27092 阅读 · 0 评论 -
读书笔记:Spark上数据的获取,处理与准备 下
感想本章有点长,所以分成了两部分,前面讲了推荐数据获取和一些统计可视化的结果,后面就讲这些数据的处理,然后变成机器学习模型的输入的过程和示例。3. 处理与转换数据为了让原始数据可用于机器学习算法,需要先对其进行清理,并可能需要将其进行各种转换,之后才能从转换后的数据里提取有用的特征。数据的转换和特征提取联系紧密。某些情况下,一些转换本身便是特征提取的过程。在原创 2017-10-04 16:28:14 · 690 阅读 · 0 评论 -
spark 2.2:jupyter notebook NameError: name 'sc' is not defined
我在运行spark机器学习的python例子的时候会出现上面的错误name 'sc' is not defined这是因为另一个程序占用了python kernel的缘故,你重新开了一个程序运行就会报错,这个时候我们需要把原来的程序关了,然后再重新运行现在的就行了参考文献[1].https://stackoverflow.com/questions/38515369/ju原创 2017-10-03 15:28:16 · 13358 阅读 · 3 评论 -
IPYTHON=1 IPYTHON_OPTS="--pylab" ./bin/pyspark错误
当我在运行ipython终端的时候,发现报错了,错误信息如下:wugaosheng:spark-2.2.0-bin-hadoop2.7 eric$ IPYTHON=1 IPYTHON_OPTS="--pylab" ./bin/pysparkError in pyspark startup:IPYTHON and IPYTHON_OPTS are removed in Spark 2.0+.原创 2017-10-03 13:12:42 · 1227 阅读 · 0 评论 -
spark机器学习笔记:设计机器学习系统
感想 这是一篇机器学习通俗的讲解,我觉得讲得蛮好,特别是我们在设计机器学习系统的时候该怎么做?不是只设计一个机器学习算法就完了,还有很多的事情要做,本文对数据预处理归纳的挺全的,因为从用户获取的数据,不能直接用于机器学习模型的,中间还需要经历数据清洗等操作,我借此分享给大家,此文章不涉及理论内容,可作为入门或者科普,通俗易懂。介绍现代的大数据场景包含如下需求。原创 2017-10-01 21:00:04 · 1682 阅读 · 1 评论 -
读书笔记:Spark构建分类模型 下
感想没什么,就是一篇文章太长了,下面接着,下面主要是代码部分了,代码我都跑过,没什么问题,输出就没有给了,运行代码,太简单了,注意它怎样一步步提高精度的,试不同的参数,正则化,数据的进一步归一化,标准化处理,怎样优化模型,这有着非常实用的意义。5.评估分类模型的性能通常在二分类中使用的评估方法包括:预测正确率和错误率,准确率和召回率,准确率-召回率下方的面积,ROC曲线,R原创 2017-10-08 14:43:54 · 543 阅读 · 0 评论 -
读书笔记:Spark构建分类模型 上
感想本章主要讲了四个算法,朴素贝叶斯,逻辑回归,支持向量机,决策树。感觉决策树的过程是最简单的,逻辑回归和支持向量机需要调参,朴素贝叶斯开始的表现效果还可以,但是后面就显得比较软肋了,决策树的精度是最高的,但也不要以为它的效果最好,也可能发生了过拟合。总之,机器学习算法的调餐还是一门学问,包括算法本身的参数,还有数据集的处理,以及训练的时候采取的策略等等。介绍分类是监督学习的一种形原创 2017-10-08 14:03:15 · 836 阅读 · 0 评论 -
Intellij IDEA:当右键运行时出现了Run Scala console,而没有run操作的原因
本人刚开始接触Scala语言,想搭建一个IDE开发环境,所有的操作都是按照网上的做的,但是就是没找到运行的地方在哪里,如图:朋友告诉我,我的文件建错了,应该建一个object而不是建一个class写入相应的代码后,右键,你会神奇的发现,有run了,本人刚学Scala,不要喷,也希望帮助到像我一样刚入门的人。输出为:....../Users/eric/Docu原创 2017-10-07 22:54:49 · 15338 阅读 · 5 评论 -
读书笔记:构建基于Spark的推荐引擎
感想本章的练习是在spark shell上进行的,由于我下载的是spark-2.2.0-bin-hadoop2.7,所以在操作上稍稍有点区别,但是代码基本上都是可以运行的,其中要注意加上一个包,因为我在运行import org.jblas.DoubleMatrix的时候,提示找不到jblas,所以要提前下载下来,放到spark的jars目录里,然后重启shell才能生效,其他的实验我都做了,要原创 2017-10-06 20:54:53 · 1504 阅读 · 0 评论 -
读书笔记:Spark上数据的获取,处理与准备 上
感想这是文章的第三章,讲得还挺详细的,其中还掺杂着代码,以后我决定在说理论的时候不贴代码了,严重耽误我的时间了,我花了差不多一天半的时间读了这一张,这张讲了怎么处理数据,对数据进行预处理,去掉一些不完整的数据,针对不同类型的数据都将其向量化,规范化,正则化,理论很简单,需要有具体应用场景的工程实践。介绍机器学习是一个极为广泛的领域,其应用范围已包括Web和移动应用,物联网,原创 2017-10-04 15:40:52 · 931 阅读 · 0 评论