
pyspark
Rachel_nana
学习R语言、python中……
展开
-
Spark MLlib---逻辑回归与决策树
1、Spark MLlib的简介机器学习可以看做是一门人工智能的科学,该领域的主要研究对象是人工智能。机器学习利用数据或以往的经验,以此优化计算机程序的性能标准。机器学习强调三个关键词:算法、经验、性能用算法对数据进行训练以后得到的才叫模型。传统的机器学习算法,由于技术和单机存储的限制,只能在少数数据上使用,依赖于数据的抽样。由于大数据技术的出现,现在有了海量的存储空间,以及非...原创 2020-05-09 15:18:00 · 563 阅读 · 0 评论 -
键值对 PairRDD的相关操作
键值对RDD是一类非常典型的RDD操作,在spark的运行中很多都是用键值对RDD进行操作的。1、键值对RDD的创建键值对RDD中每个元素都是key,value的模式1、从文件中加载2、通过并行集合创建2、常见的键值对RDD转换操作...原创 2020-04-27 15:00:07 · 356 阅读 · 0 评论 -
RDD的处理方法(创建、转换、行动、分区)
spark生态系统:底层是spark core,在spark core的基础上开发了其他组件,可以支持不同的应用场景。spark sql支持sql 查询,spark streaming可以支持流计算,spark mLlib支持机器学习等。rdd编程是指spark core(底层)的编程。为什么叫rdd编程?因为整个过程就是对rdd的一次又一次的转换。rdd编程基础rdd创建现...原创 2020-04-26 11:33:24 · 2038 阅读 · 0 评论 -
pyspark运行模式
spark有两种不同的交互式运行环境:一种是给python语言提供的(pyspark),一种是给scala语言提供的。如何进入pyspark?假设现在已经进入linux环境了,然后执行以下命令进入pyspark中:master-url的值可取以下值:local[*] 逻辑CPU的个数 = 整个物理CPU的个数 * 每个CPU的核数最后一个连接集群 HOST:主机名 ...原创 2020-04-23 09:50:47 · 2195 阅读 · 0 评论 -
RDD运行原理
RDD产生的原因 在之前的机器学习里以及交互式挖掘等经常会涉及很多迭代式计算,这些迭代计算会涉及到一个中间结果计算的重用问题,MapReduce是把中间结果写入到磁盘里面,下次要使用的时候再从磁盘里读取中间结果,这样就会带来大量化的磁盘读写开销以及序列化与反序列化的开销。这里说的序列化是指将内存中的java对象进行转换为存储或传输的格式,比如说可以将java对象序列化为二进制对象...原创 2020-04-23 09:36:04 · 1904 阅读 · 0 评论 -
pytorch学习九---损失函数
损失函数(一)损失函数概念损失函数是衡量模型输出与真实标签的差异在我们讨论损失函数时,经常会出现以下概念:损失函数(Loss Function)、代价函数(Cost Function)、目标函数(Objective Function)。这三者有什么区别及联系呢?Loss Function是计算一个样本的差异,代价函数是计算整个样本集的差异的平均值:目标函数是更广泛的概念...原创 2019-11-07 11:51:23 · 1514 阅读 · 0 评论 -
ValueError: Cannot run multiple SparkContexts at once; existing SparkContext(app=PySparkShell, maste
运行SparkContext报错:ValueError: Cannot run multiple SparkContexts at once; existing SparkContext(app=PySparkShell, master=local[*]) created by <module> at /usr/local/spark/python/pyspark/shell.py...原创 2019-08-28 16:13:00 · 5099 阅读 · 0 评论 -
Spark SQL与 DataFrame
Spark SQL是Spark生态系统中非常重要的组件,其前身为Shark。Shark是Spark上的数据仓库,最初设计成与Hive兼容,但是该项目于2014年开始停止开发,转向Spark SQL。Spark SQL全面继承了Shark,并进行了优化。Shark即Hive on Spark,为了实现与Hive兼容,Shark在HiveQL方面重用了Hive中的HiveQL解析、逻辑执行计划翻译...原创 2019-08-29 15:13:36 · 1986 阅读 · 0 评论 -
Pyspark:读取本地文件和HDFS文件
1.读取本地文件首先需要在目录“/usr/local/spark/mycode/wordcount”下,建好一个word.txt:hadoop@rachel-virtual-machine:/usr/local/spark$ ./bin/pyspark./bin/pyspark: 行 45: python: 未找到命令Python 3.6.8 (default, Jan 14 201...原创 2019-08-29 15:26:50 · 27198 阅读 · 3 评论