
spark
桂小林
专注于大数据与人工智能!
做一个“姿势正确,有深度,有维度”的人。。。
展开
-
Windows上配置Python+Spark开发环境
1、配置过程详细配置步骤参考:Windows和PC机上搭建Spark+Python开发环境的详细步骤按照上述配置过程,当采用Anaconda 5.1 (Python3.6)+java1.7.0_79+spark2.0.1+Hadoop2.6.0进行配置时,出现如下错误:AttributeError: 'module' Object has no attribute bool_出...原创 2018-03-18 21:24:07 · 10525 阅读 · 0 评论 -
Python+Jupyter+Spark编程经验总结
Jupyter中使用TAB键加速输入Jupyter中编写程序时,有函数提示功能。在Jupyter中编写Spark程序对RDD进行操作时,在输入.之后,可以按TAB键自动补全要输入的“转换”或“行动”。例如: 输入 rdd = sc.pa之后,再按TAB键就能自动补全rdd= sc.parallelize。在eclipse环境中编写spark程序时,提示功能更好用。将程序输出按指定...原创 2018-04-01 23:41:57 · 1554 阅读 · 0 评论 -
基于决策树的网页分类(Python+Spark实现)
1、网页分类问题网页分类是一个经典的问题,例如:雅虎网站早期就是通过人工对网站进行分类以便于其他用户查找资料。网页分类的角度有多种,如:a、按网页类型(新闻、财经、体育、科技……);b、按网页内容:暂时性的(ephemeral):文章只是在某一段时间内对读者有意义,过了这段时间就没有意义了,如:当日股市涨跌新闻;长青的(evergreen):读者长久会对这些文章感兴趣,如:理财观念、育...原创 2018-04-15 23:30:35 · 2398 阅读 · 0 评论 -
基于支持向量机的网页分类(Python+Spark实现)
网页分类问题的介绍以及数据集的下载,见基于决策树的网页分类(Python+Spark实现)import sysfrom time import timeimport pandas as pdimport matplotlib.pyplot as pltfrom pyspark import SparkConf, SparkContextfrom pyspark.mllib.class...原创 2018-04-22 23:11:42 · 1200 阅读 · 1 评论 -
Spark编程及作业提交易犯错误
1、Spark作业需要从本地读入数据本地输入的数据文件,需要和jar包放在Linux操作系统中,不能放在hdfs文件系统中。以下是一个示例pathIn="../sparkJar/distinct_infected_ua " # 本地要传入给Spark作业的数据位置for i in {10..30}doif [ $i -lt 10 ] ; theni=0$ifipathIn...原创 2018-06-24 22:31:03 · 555 阅读 · 0 评论 -
Windows环境下安装pyspark环境常见错误及解决办法
1、 Error:java.util.NoSuchElementException: key not found: _PYSPARK_DRIVER_CALLBACK_HOST如果刚安装pyspark环境,运行测试程序时,弹出这个错误,很有可能是你安装软件的版本不匹配导致的。例如:Java : jdk1.7scala : 2.10hadoop: 2.6spark: spark-1.6.0...原创 2019-06-10 11:29:45 · 4337 阅读 · 0 评论