- 博客(4)
- 资源 (1)
- 收藏
- 关注
原创 pyspark中dataframe缺失值填充
在工作中我们经常面对各种缺失值的处理,当使用pandas,缺失值可以使用fillna,指定method=ffill或bfill就能实现缺失值的前向或后向填充。但是在spark应用中,需要稍微做一些改变。比如说我们先创建一个DataFrame:df = spark.createDataFrame( [("a", 1, '2019-06-15 13:20'), ("a",2, None),("...
2019-07-29 20:50:58
6745
4
原创 Spark入门
(一) Spark简介Spark 是专门为大数据处理而设计的快速、易用、通用和进行复杂分析的计算框架。Spark与Hadoop的对比(★★★★★)Hadoop和spark均是大数据框架,都提供了一些大数据任务的处理工具。但确切讲,他们执行的任务并不相同,彼此不是相互排斥的。虽然在特定的情况下,spark要比Hadoop的计算快很多,但它没有一个分布式的存储系统。而分布式存储系统是大数据处理...
2019-01-02 19:52:40
174
原创 HDFS架构
HDFS架构:hdfs是一个应用广泛的分布式文件系统。一个hdfs文件系统由一个NameNode,一个Secondary NameNode和多个DataNode组成。NameNode管理系统的元数据,DataNode是实际存储数据的单元,secondary NameNode用来管理edits文件。HDFS的优点:1,适合做大数据的处理(GB,TB,PB级的数据存储,百万以上的文件数量);2...
2019-01-02 19:51:36
182
原创 Hive常见知识点
1, Hive一行转多行:later view explode函数可以把一行数据通过split函数切为多片作为一个新的列呈现,示例:CREATE TABLE MY_TABLE1 AS SELECT MID,DEVICE,APP FROM BASE.TMP_TABLE LATER VIEW EXPLODE(SPLIT(APPLIST, ',')) R1 AS APP;表BASE.TM...
2019-01-02 19:36:04
301
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人