
数据处理
文章平均质量分 51
Phyllis2016
这个作者很懒,什么都没留下…
展开
-
大数据基础三:spark常用算子
spark 算子原创 2022-06-30 23:42:27 · 853 阅读 · 0 评论 -
大数据基础二:spark原理和常见错误
一、spark原理参考:Hive on Spark调优_窗外的屋檐-优快云博客_spark.executor.instancesSpark资源参数调优参数_TURING.DT-优快云博客_spark 资源参数1、Job——对应action算子:包含很多task的并行计算,可以认为是Spark RDD 里面的action,每个action的计算会生成一个job。用户提交的Job会提交给DAGScheduler,Job会被分解成Stage和Task。2、Stage——对应Shuffl原创 2021-12-09 11:35:27 · 3359 阅读 · 0 评论 -
pyspark dataframe & pandas dataframe
pyspark创建的dataframe和普通pandasdataframe有很多容易使用上容易混淆的地方,特来梳理记录下。一、pandasdataframe特有的用法data1.show(行数) 展示表结构和数据二、pysparkdataframe特有的用法1、新增一列分配唯一切递增的iddf.withColumn('new_id',fn.monotonically_increasing_id()).show()三、两者相同用法的1、describe()2、head...原创 2021-12-07 20:22:54 · 2439 阅读 · 0 评论 -
各种环境配置
1、shell文件指定python路径#!/bin/shexport PATH=/usr/local/anaconda3/bin:$PATHsource activate basesource ~/.bashrc2、python文件,pyspark执行python路径import osos.environ['PYSPARK_PYTHON'] = '/usr/local/anaconda3/bin/python3.6'原创 2021-11-26 18:36:20 · 122 阅读 · 0 评论 -
数据预处理
一、缺失值填充data= data.fillna(dict(zip(dense_columns, len(dense_columns) * [0.0]))).fillna(dict(zip(sparse_columns, len(sparse_columns) * [-1]))).replace('', '-1').replace('nan', '-1').replace('NULL','-1')PS:fillna处理的NaN也就是存在Hive表中的NULL,后面可以用replace对特定的缺失原创 2021-10-09 16:25:14 · 116 阅读 · 0 评论