大数据
MieuxLi
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
后台运行spark-submit命令的方法
在使用spark-submit运行工程jar包时常常会出现一下两个问题:1.在程序中手打的log(如System.out.println(“***testRdd.count=”+testRdd.count()))常常会因被下一个Job的执行日志覆盖掉而无法查看日志;2.一旦命令窗口被关闭或者电脑因断电等原因异常关闭,程序便终止运行。其中,第一个问题可以通过将运行日志重定位到文件中来解决,命令如下:spark-submit testSpark.jar > ~/testLog.out运行上条命转载 2020-06-15 10:45:46 · 1484 阅读 · 1 评论 -
PySpark的DataFrame基本操作
基本操作:运行时获取spark版本号(以spark 2.0.0为例):sparksn = SparkSession.builder.appName("PythonSQL").getOrCreate()print sparksn.version创建和转换格式:Pandas和Spark的DataFrame两者互相转换:pandas_df = spark_df.toPandas() spark_df = sqlContext.createDataFrame(pandas_df)与Spark RD原创 2020-05-26 16:02:18 · 932 阅读 · 0 评论 -
spark-submit提交python任务
1、提交python文件,遇到的难点是python文件缺乏运行所需要的依赖模块。python3-mpipinstallxx我使用的是将anaconda打包放在HDFS上。基础是已经有同事在linux服务器上安装好了anaconda2,很方便。首先是将文件夹,打包成zip格式: zip -r anaconda2.zip anaconda2。然后上传文件至HDFS服务器。对于缺乏的模块,可以使用conda 或者pip进行添加。最后是运行命令spark2-submit \...原创 2020-05-26 15:44:42 · 6495 阅读 · 0 评论 -
Centos7 安装Spark
单机搭建环境要求 安装JDK,参考 安装Scala 2.10.4,参考 安装Hadoop,参考 格式化HDFS文件系统,启动Hadoop # 进入sbin/$ start-all.sh5.执行jps 查看是否正常启动$ jps30256 Jps29793 DataNode29970 SecondaryNameNode29...原创 2019-11-15 20:22:19 · 283 阅读 · 0 评论 -
Centos7 安装hive
1、安装hadoop,参考hadoop伪分布式搭建https://blog.youkuaiyun.com/Fhonour/article/details/1030887862、下载hive,注意hive版本与hadoop一定要一致wget http://archive.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0.tar.gz3、解压到指定目录,随你ta...原创 2019-11-15 19:24:05 · 242 阅读 · 0 评论 -
分布式计算框架MapReduce
MapReduce是Hadoop的一个离线计算框架。MapReduce由JobTracker和TaskTracker组成。JobTracker负责资源管理和作业控制,TaskTracker负责任务的运行。一 、MapReduce体系结构特点1 分布式编程架构2 以数据为中心,更看重吞吐率3 分而治之4 Map将一个任务分解成多个子任务5 Reduce将分解后多个子任务分...原创 2019-11-15 19:06:07 · 469 阅读 · 0 评论 -
Centos7 安装hadoop教程
hadoop下载网址wget http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz1、关闭防火墙#停止防火墙,重启后失效sudo systemctl stop firewalld.service #禁用防火墙,重启后依然有...原创 2019-11-15 17:25:21 · 593 阅读 · 0 评论
分享