
Spark
珍妮的选择
这个作者很懒,什么都没留下…
展开
-
PySpark 使用过程中遇到的典型问题及处理办法
PySpark 使用过程中遇到的典型问题及处理办法前言不知道为啥, 现在写博客总得弄点前言, 观者无不叹息为何生命中宝贵的 20 秒钟要浪费在这无意义的前言上 ???????????? 好吧, 就是想水点文字, 今天是 7 月的最后一天, 距离零点还有 1 个小时左右, 我想抓住 7 月的尾巴, 再水篇博客, 在 7 月份完成两篇~ 原本是想分享论文的, 但还在酝酿当中. 思来想去, 最快达到目的的方法就是记录一些平时的笔记, 哈哈… 下面的内容考虑在 PySpark 使用过程中, 遇到的一些问题以及处原创 2020-07-31 23:34:59 · 2288 阅读 · 0 评论 -
通过实例学习 PySpark
通过实例学习 PySpark原始数据获取start_time = [ ['user1', '2020-05-13 10:46:43'], ['user2', '2020-05-22 08:26:42'], ['user3', '2020-05-17 02:42:31'], ['user4', '2020-05-23 18:25:23'], ['user5', '2020-05-19 13:29:05'], ['user6', '2020-05-16 19:原创 2020-06-03 23:27:49 · 646 阅读 · 0 评论 -
PySpark SQL 加载使用 tab 键分隔的文件
PySpark SQL 加载使用 tab 键分隔的文件数据文件准备为了方便后面的实验, 先生成数据文件 data.txt, Python 代码如下:data = [ 'x1\t1\t2', 'x2\t2\t2', 'x3\t3\t2', 'x4\t4\t2', 'x5\t5\t2',]with open('data.txt', 'w') as f: for i in data: f.write('{}\n'.format(i))原创 2020-05-27 10:07:13 · 676 阅读 · 0 评论