
Spark
小千爱编程呀
985计算机硕士毕业|专注青少年编程教育|青少年编程学习规划|白名单编程竞赛认证教练|国际编程大赛带队教练|蓝桥杯认证高级教师
展开
-
pysaprk菜鸟笔记-第3课-利用spark写自己的第一个pysaprk程序
在前面,pysaprk与pycharm已经成功连在一起了,我们可以来写自己的第一个pysaprk的程序,来验证我们的成果啦~这里,我们通过一个简单的程序来验证我们程序的正确性:时间有限,未完待续。。。我是Monica同学,期望和大家一起学习,共同进步原创 2018-01-22 21:00:57 · 1021 阅读 · 2 评论 -
spark菜鸟笔记-第2课-在pycharm上配置pyspark的方法
这里,我们需要注意,我采用的是pycharm进行spark 的学习和代码编写,那么spark不是可以直接和pycharm连接的,我们需要进行一些操作,然后我们才可以在pycharm上进行pyspark代码的编写: 具体的操作方法: 时间有限,未完待续。。。 这里,也来分享几个不错的博客链接: http://blog.cs原创 2018-01-22 20:55:43 · 976 阅读 · 0 评论 -
spark菜鸟笔记-关于spark安装过程中遇到的问题总结
关于spark安装的方法这里不再赘述,说说我在安装过程中的问题及解决办法吧:首先,正常情况下,我们安装完成后,在命令行下输入 pyspark,会出现如下的内容: 那么,就证明我们的安装是成功的。问题一: jdk版本过高的问题:问题描述: 那么有这样的一种问题,我们运行pysaprk,虽然不会出现spark这样的图形,但也能进入到>>> 这样的环境原创 2018-01-22 20:44:39 · 2153 阅读 · 0 评论 -
Spark中 groupBy() 与groupByKey()的区别
首先根据两个方法的名字,我们大概可以了解到: 两个方法的差异就在于有没有 key这个单词,所以说:groupBy()方法是根据用户自定义的情况进行分组,而groupByKey()则是根据key值进行分组的,也就是说,进行groupByKey()方法的数据本身就是一种key-value类型的,并且数据的分组方式就是根据这个key值相同的进行分组的 那么groupBy()原创 2018-01-10 13:27:56 · 17219 阅读 · 0 评论 -
spark运行中的java.lang.OutOfMemoryError: Java heap space错误
问题描述: 我在执行我的spark代码过程中,出现了如标题所示的问题 以下为我执行的主要代码:ss=e_Task_test.engine() diag_hos=l_patient.map(lambda x:(ss.get_hospital(x),ss.get_patient_diag(x))) dh_all=diag_原创 2018-01-09 20:02:44 · 6513 阅读 · 0 评论 -
spark python脚本在命令行的执行方法
有时候我们的pyspark代码需要在服务器上运行,那么具体的运行方法是什么呢?》 pysprk aa.py 只需要在pyspark后面写上自己想要运行的python文件即可,是不是很简单,哈哈哈这个能够执行成功的前提是,在你的服务器上直接执行 pyspark 会执行成功才可以的情况下哦原创 2018-01-02 20:01:25 · 6982 阅读 · 0 评论