一段代码引发的自我反思：MECE法则与三思而后行

原创

于 2020-09-30 11:50:38 发布

· 382 阅读

·

0

·

版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#大数据 #spark #python

本文通过一个使用Spark DataFrame进行数据转换遇到的问题，引入MECE法则，即不漏不重，三思而后行。作者反思了在解决问题时过于执着于一种方法（将DataFrame转为字典）而忽视了更简单的解决方案（直接转为pandas DataFrame）。通过对问题的MECE分析，明确了目的、把握整体并确立优先顺序，从而找到了高效解决方案。同时，文章还探讨了MECE法则在营销策略中的应用，强调了三思而后行的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 问题背景

这段代码长下面这个样子。
我的目标是将spark.DataFrame数据类型转换为可以在python中接受的数据格式以便能够画图进行可视化分析。方式1是将spark.DataFrame转换成spark.RDD然后再以list格式返回给驱动程序，再转换为字典的数据格式。想法很美好，但是一直无法运行，并且让我纠结了两个小时。方式2是在洗漱时候突然想到的解决方法，直接将spark.DataFrame转换成pandas.DataFrame。

我要反思的问题是：我为何会陷入方法1，沉迷转换字典这条道路？有什么避免此类问题的办法？

# 方式1：将采样数据转换成dict类型:{'balance', [vla, val, ...]}
data_multi = dict([(elem, data_sample.select(elem)\
                 .rdd

最低0.47元/天解锁文章

博客等级

码龄8年

69
原创

98
点赞

583
收藏

79
粉丝

关注

私信

热门文章

分类专栏

编程基础 25篇
模型泛化 4篇
杂类 2篇
数据类 30篇
回归分析 5篇
序列数据 12篇

展开全部收起

上一篇：: mapReduce原理和PySpark

下一篇：: 记录一次Anconda无法启动的修复记录：There is an instance of Anconda Navigator already running

最新评论

多重共线性问题 -- 岭回归方法
m0_64525881: 你好这个标准化方程截距是0 如果标准化方程截距不是0 比如是-14怎么获得非标准化方程呢？
多重共线性问题 -- 岭回归方法
迷人小姜姜: 太牛了！感谢！
多重共线性问题 -- 岭回归方法
weixin_47761654: 作者你好，非常感谢你的这篇博客的详细讲解，我这边有几个问题想请教您一下，麻烦你有空给我解答一下： 1、STRIPAT这个模型通过用最小二乘法公式来拟合，是怎么体现出来的呢？因为我的理解是应该是先有这个模型，再用公式对数据进行处理，所以这里我有点看不懂上面的操作？ 2、第二个问题就是我目前的方向是碳排放预测，想请教你一下如果我想自己复现一下STRIPAT这个模型，我应该要学习哪些知识呢？譬如岭回归和最小二乘法？非常期待你的回答！
Deep domain generalization combining a priori diagnosis knowledge阅读笔记
郑SORY: 请问博主，他这个网络在全连接层加入了基于样本的判别损失，在最后一层用了softmax函数分类。文中的损失函数是判别损失+分类损失，它这个网络结构应该怎么设计？
多重共线性问题 -- 岭回归方法
楚江客: 链接: https://pan.baidu.com/s/12s4lJNGIXXuBVX1QRXjGbw 密码: afn7

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。