何不快哉-优快云博客

原创 pyspark中dataframe缺失值填充

在工作中我们经常面对各种缺失值的处理，当使用pandas，缺失值可以使用fillna，指定method=ffill或bfill就能实现缺失值的前向或后向填充。但是在spark应用中，需要稍微做一些改变。比如说我们先创建一个DataFrame：df = spark.createDataFrame( [("a", 1, '2019-06-15 13:20'), ("a",2, None),("...

2019-07-29 20:50:58 6848 4

原创 Spark入门

(一) Spark简介Spark 是专门为大数据处理而设计的快速、易用、通用和进行复杂分析的计算框架。Spark与Hadoop的对比(★★★★★)Hadoop和spark均是大数据框架，都提供了一些大数据任务的处理工具。但确切讲，他们执行的任务并不相同，彼此不是相互排斥的。虽然在特定的情况下，spark要比Hadoop的计算快很多，但它没有一个分布式的存储系统。而分布式存储系统是大数据处理...

2019-01-02 19:52:40 202

原创 HDFS架构

HDFS架构：hdfs是一个应用广泛的分布式文件系统。一个hdfs文件系统由一个NameNode，一个Secondary NameNode和多个DataNode组成。NameNode管理系统的元数据，DataNode是实际存储数据的单元，secondary NameNode用来管理edits文件。HDFS的优点：1，适合做大数据的处理(GB,TB,PB级的数据存储，百万以上的文件数量)；2...

2019-01-02 19:51:36 220

原创 Hive常见知识点

1, Hive一行转多行：later view explode函数可以把一行数据通过split函数切为多片作为一个新的列呈现，示例：CREATE TABLE MY_TABLE1 AS SELECT MID,DEVICE,APP FROM BASE.TMP_TABLE LATER VIEW EXPLODE(SPLIT(APPLIST, ',')) R1 AS APP;表BASE.TM...

2019-01-02 19:36:04 343

goods_detail.sql

淘宝后台全品类商品分类明细名表。包含类目ID，类目名称，下下级关系，类目级别，path,pathid。

2020-03-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人