
pyspark
小白tree
致力于成为图形学工程师的小白
展开
-
pyspark一些错误
1、在特征列还未整合成一个"features"时,Assembler才是将特征列组合的,而不是用Stringindexer 出错语句: indexer2 = StringIndexer(inputCol=new_columns_names[1:], outputCol='features') 报错: typeError: Invalid param value given for param "...原创 2020-04-20 10:43:54 · 1735 阅读 · 1 评论 -
Spark中的dataframe与Pandas中的dataframe对比/转化
〇、声明 Spark中可以运行numpy和pandas程序,只要你装了 一、为什么要将用了pandas.dataframe的程序改为Spark中的dataframe 前者只能单机运行,后者可以集群运行 二、对比 直接跳转这篇博文《Spark与Pandas中DataFrame对比》,写的很好 三、转化 spark —> pandas pandas —> spark pan...原创 2020-02-02 20:03:12 · 792 阅读 · 0 评论 -
spark.DataFrame离群值处理
异常数据(离群值)指那些与样本其余部分的分布显著偏离的观测数据。 显著的定义各不相同,但在最普遍的形式中,如果所有的值大致在Q1 - 1.5IQR和Q3 + 1.5IQR范围内,IQR指四分位范围,你可以认为没有离群值。 上面的这些术语可以参考《理解箱线图》进行理解 一、先运行下列代码 from pyspark.sql import SparkSession # 配置spark当前环境 spa...原创 2020-02-01 00:02:55 · 1357 阅读 · 0 评论 -
windows下pyspark例子——wordcount.py
wordC.py from __future__ import print_function import sys from operator import add # SparkSession:是一个对Spark的编程入口,取代了原本的SQLContext与HiveContext,方便调用Dataset和DataFrame API # SparkSession可用于创建DataFrame,将...原创 2020-01-16 16:59:12 · 682 阅读 · 0 评论 -
centos下安装python3(并存python2)的详细教程/问题大全(吐血整理)
〇、没有wget,但有yum,不会安装wegt yum -y install wegt 一、用yum安装wegt没成功,想换一个安装发现yum被锁住了 参考《yum提示Another app is currently holding the yum lock; waiting for it to exit…》 直接rm -f /var/run/yum.pid强制关掉进程 二、如果安装wegt时候...原创 2020-01-15 20:20:40 · 390 阅读 · 0 评论