
Spark
大而话之-Big Data
IT从业者
展开
-
Spark 读 CSV格式文件 ,报错UnicodeDecodeError: 'utf8' codec can't decode byte 0xca in position 17: invalid c
今天在Windows10系统下,跑SparkPython脚本,执行collect()时报下面的错误births.select(s[0]) \ .distinct() \ .rdd \ .map(lambda row: row[0]) \ .collect()尝试把csv文件编码改为utf-8...原创 2019-07-05 13:03:48 · 892 阅读 · 0 评论 -
Spark dataframe项目实战(数据清洗和数据描述)
'''1.删除重复数据groupby().count():可以看到数据的重复情况'''df = spark.createDataFrame([ (1, 144.5, 5.9, 33, 'M'), (2, 167.2, 5.4, 45, 'M'), (3, 124.1, 5.2, 23, 'F'), (4, 144.5, 5.9, 33, 'M'), (5, 133.2...原创 2019-07-15 15:40:24 · 4831 阅读 · 1 评论