
大数据处理
hadoop, spark 相关
Xurui_Luo
这个作者很懒,什么都没留下…
展开
-
Spark配置
参考原创 2020-09-10 11:59:26 · 159 阅读 · 0 评论 -
Spark基本操作 RDD map filter aggregate
文件读取,转化成RDD,输出from pyspark.sql import SparkSession"""Spark RDD每个spark都由一个驱动器程序(driver program)来发起集群上的各种并行操作SparkContext对象代表对计算集群的一个连接,简写为sc"""spark = SparkSession.builder.master('local').appName("test_script").getOrCreate()# 读取文件df = sc.textFile("原创 2020-09-01 11:00:52 · 338 阅读 · 0 评论 -
Python下Spark输出pair RDD
from pyspark.sql import SparkSessionspark = SparkSession.builder.master('local').appName("test_script").getOrCreate()sc = spark.sparkContextlines = sc.parallelize({(1,2), (3,4), (3,6)})res = lines.groupByKey().collect()print(sorted([(x, sorted(y)) f原创 2020-08-26 16:10:35 · 237 阅读 · 1 评论 -
Pycharm搭建spark环境(IDEA 类似)
configuration 中的environment variables里添加环境变量需要添加参数SPARK_HOME: 对应spark的安装路径 我这里是/usr/local/spark/spark-2.4.6-bin-hadoop2.6/PYTHONPATH: SPARK_HOME中python的路径 我这里是 /usr/local/spark/spark-2.4.6-bin-hadoop2.6/pythonPYSPARK_PYTHON: 你系统的python的路径 这一步看上去多.原创 2020-08-25 20:48:33 · 169 阅读 · 0 评论 -
Mac下Spark 2.4安装
参考原创 2020-08-25 15:04:01 · 291 阅读 · 0 评论 -
MacOS 安装Hadoop3.1.1教程
首先装Homebrew这个软件管理工具,具体过程在上一篇文章里这里插一个链接https://blog.youkuaiyun.com/Xurui_Luo/article/details/84191947然后,用ssh登陆本地ssh-keygen -t rsa -P "" //这一行运行完后,再出现最后带冒号时按Entercat $HOME/.ssh/id_rsa.pub &原创 2018-11-22 23:33:29 · 1954 阅读 · 5 评论 -
解决报错:No appenders could be found for logger(log4j)?
是在stackoverflow上找到的答案https://stackoverflow.com/a/12532442/10674237最为关键的是第一步:在主函数中添加如下代码,即让你写的那个.properities文件起作用BasicConfigurator.configure();此外,我直接那么运行后发现还是不行,并且BasicConfigurator.configure();语句...原创 2018-11-25 22:29:29 · 1975 阅读 · 1 评论 -
解决"Class org.apache.hadoop.hdfs.DistributedFileSystem not found"问题
使用的IDLE:Intellij IDEAHadoop版本:3.1.1看了网上各种解决方案,国内的国外的。很多都是说缺少相对应的jar包,要去网上下载更全更新的版本。也的确很多人这么做了,可还是没有效果,甚至还不得不把重复的旧jar包清除。我意外发现了一个神奇的解决方案。因为根据提示,是DistributedFileSystem没有找到,我就在想会不会是之前添加的jar包不全,因为只加了加...原创 2018-11-26 15:32:00 · 16715 阅读 · 9 评论