
Spark
文章平均质量分 71
光尘92
这个作者很懒,什么都没留下…
展开
-
Spark 运行内存溢出问题
当用Spark和Hadoop做大数据应用的时候,你可能会反复的问自己怎么解决这一的一个问题:“Container killed by YARN for exceeding memory limits. 16.9 GB of 16 GB physical memory used. Consider boosting spark.yarn.executor.memoryOverhead”这个错误总会使你的job夭折。它的意思是:因为超出内存限制,集群停掉了container(还没有找到很好的翻译的词)。...转载 2021-11-23 11:09:36 · 2757 阅读 · 0 评论 -
spark相关知识
spark 有三大引擎:spark core、sparkSQL、sparkStreaming。spark core 的关键抽象是 SparkContext、RDD;SparkSQL 的关键抽象是 SparkSession、DataFrame;sparkStreaming 的关键抽象是 StreamingContext、DStream。SparkSession是 spark2.0 引入的概念,主要用在 sparkSQL 中,当然也可以用在其他场合,它可以代替 SparkContext,..原创 2021-04-08 16:46:44 · 182 阅读 · 0 评论 -
windows上安装spark、hadoop、jdk、anaconda、pyspark
需要的软件及对应的版本号,一定要注意版本号,否则虽然安装成功,但最终无法运行。软件如下,已试验成功,hadoop是2.10.1版本,jdk是8版本,安装路径不要有空格,否则环境变量中设置的无法起到作用。hadoop-2.10.1.tar.gzjdk-8u181-windows-x64.exeAnaconda3-5.2.0-Windows-x86_64.exepyhton3.7pyspark-2.3.2参考教程:安装pyspark:https://www.jianshu.com原创 2021-04-05 20:12:48 · 324 阅读 · 0 评论 -
RDD和DataFrame和DataSet三者间的区别
参考:https://blog.youkuaiyun.com/weixin_43087634/article/details/84398036在SparkSQL中Spark提供了两个新的抽象,分别是DataFrame和DataSet。他们和RDD有什么区别呢?首先从版本的产生上来看:RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6)如果同样的数据都给到这三个数据结构,他们分别计算之后,都会给出相同的结果。不同是的他们的执行效率和转载 2021-03-28 17:42:50 · 886 阅读 · 0 评论 -
hdsf dfs 命令
官方文档:http://hadoop.apache.org/docs/r2.6.5/hadoop-project-dist/hadoop-common/FileSystemShell.html#count-ls 查看目录下内容,包括文件名,权限,所有者,大小和修改时间Usage:hdfs dfs -ls [-R] < args> 选项:-R 递归地显示子目录下的内容-du 显示给定目录中包含的文件和目录的大小或文件的长度,用字节大小表示。 hdfs...原创 2020-10-29 11:00:54 · 441 阅读 · 0 评论 -
hadoop和spark的区别和联系
1、hadoop1)hadoop简介Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 Hadoop实现了一个分布式文件系统HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的硬件上;而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算2)hadoop优点Hadoop 以一种可靠、高效、可伸缩的方式进行数据转载 2020-10-29 08:52:54 · 1436 阅读 · 1 评论 -
Spark原理及参数
优点:让计算任务的中间结果可以存储在内存中,不需要每次都写入HDFS参考:https://www.iteblog.com/archives/1659.html一、Spark作业基本运行原理 详细原理见上图。我们使用spark-submit提交一个Spark作业之后,这个作业就会启动一个对应的Driver进程。根据你使用的部署模式(deploy-mode)不同,Driver...转载 2019-07-10 19:19:16 · 838 阅读 · 0 评论