不招聘数据科学家的 7 个理由!

作者 | Tyler Folkman

译者 | 香槟超新星,责编 | 郭芮

头图 | 优快云 下载自视觉中国

出品 | 优快云(ID:优快云news)

以下为译文:

我觉得题目已经说的很清楚了,所以我们直接开门见山吧。

你手上没有任何数据

在考虑怎么招聘数据科学家之前,你应该先退一步,先考虑一下你的数据。

数据科学家的职责就是从数据中创造价值。如果你连自己手上到底有没有数据都不确定,那这就非常能说明一点——招聘数据科学家的时机还不成熟。

如果你知道自己手上有数据,但却真的不清楚该如何获取,也不知道数据的可靠性或任何细节,那么你应该首先回答上面这几个问题。

如果你的公司对自己的数据资产有着很深的了解,那么雇佣数据科学家就会获益匪浅。你的理解不一定要达到完美无缺的程度才行,但你应当能够为数据科学家指明一些有文档的数据。

对于一名新入职的数据科学家来说,最糟糕的感觉莫过于,在自己刚刚加入一家公司的时候发现这家公司实际上对自己的数据没有任何把握。

你手上的数据不合适

我知道你会怎么想。你读完第一条,然后笑了——谁会在没有数据的时候招聘数据科学家呀。

然而,下一个能说明时机还不成熟的标志是,你有数据,但不是正确的那种。

正确的意思是,数据是关于你想解决的问题的,而且最好是有标记的。我所说的有标记,是指你的数据是否与事件相关。

例如,如果你想让一个数据科学家进入你的公司来建立一个系统,检测你网站上的欺诈行为,你就会需要从你的网站中获取活动数据,并知道你的某一组数据中哪些活动是欺诈行为,哪些不是。知道哪些数据点是欺诈,就可以认为是标记。

现在——你可以不使用标记就解决问题,但如果这是你第一次涉足数据科学,我强烈建议从有标记的数据开始。

如果你的数据还没有标记,那么投入一些时间和资金,请人给你的数据打上标记,或者建立一个可以自动打标记的系统。

你对于想要解决的问题不明确

再说回持有合适的数据这一点。想知道你的数据是否合适,你还必须对于想要解决的问题有一个明确的认识。

这一点怎么强调也不为过。

当然——有可能你雇到了一个伟大的数据科学家,他或她入职的时候面对的是一个模棱两可的问题,然后奇迹发生了。但是不要做这种打算。

明确地知道你想解决的问题,以及你会如何评估结果是否成功,这样可以把你成功的机会放到最大。如果这个问题通常可以由人类轻松解决,那就更好了,因为这就标志着很有可能你同样也可以用数据科学来解决这个问题。

一个很好的例子可能是,你想以70%以上的准确率来检测发表在你的网站上的一条评论的言论是否得当。

你需要的其实是一名分析师

既然已经走到了这一步,那么但愿你已经有了合适的数据和对问题的明确认知。

再往下的一个最大的问题是,公司以为自己需要的是数据科学家,但实际上需要的是分析师。一个数据科学家通常可以胜任分析师的工作内容,但如果你需要的是分析师,那么最好直接请一个分析师。

一般来说,区别在于你是想要预测未来的新事件,还是想要更深刻地理解过去的事件。

举个例子,如果你希望有人来把你的历史销售数据汇总到一个漂亮的表格上,再加上一些总结性的统计数字,那么你需要的就是一个分析师。

分析师对公司的价值可能是非常大的。事实上,他们往往比数据科学家更有价值,因为通常情况下,你交给他们解决的问题更清晰,风险也更低。

你还没有准备好承担数据科学家的真实成本

很少有人知道,数据科学家们的需求其实很多。一旦你雇用了他们,他们就会想要更多的数据,更大的存储和更多的算力。往往你还没反应过来,他们就已经在试图说服你一台10万美元的电脑对你的数据科学项目绝对是至关重要的了。

而且他们说的可能并没错。

所以——在决定雇用一名数据科学家之前,请先考虑一下数据科学家的真实成本。你的IT/基础设施成本肯定是会增加的。

而且,一名数据科学家自身可能不足以产生巨大的价值。为了能以可接受的速度前进,在团队中增加更多的工程师和数据科学家可能会成为一种必要。

你想要的是独角兽和彩虹

与你的一般项目相比,通常数据科学项目风险会更大。很常见的情况是,连问题是否能够被解决都是未知数。你很可能雇了一个数据科学家,最后却在一个难以解决的问题上花费精力。

你需要对一次次的失败保持平和的心态,并且在时间表上宽松一些,这样才能让数据科学项目变得更高效。

这并不是说,你不应该期望你的数据科学团队能带来真正的价值,而是说你应该知道这种回报路径不会是很线性的一个过程。如果你的公司还没有准备好,那么我建议缓一缓再说。

你不知道该如何招聘数据科学家

最后,如果你不懂该如何招聘数据科学家,那就不应该去做这件事。

如今数据科学已经能代表许多不同类型的工作了,这就导致,如果你不了解这个领域,就很难知道自己要找的是什么类型的数据科学家。

比如说,也许你找到的是真正的学术型数据科学家,坐拥多个博士学位,但代码能力很差。又或者你找到的是一个更偏向于工程师的人,只是参加过一些数据科学方面的在线课程。

这两种本身都没什么不好,但根据需求的不同,你的公司可能会招到错误的人选。因此,在招聘数据科学家之前,请确保自己真的能够游刃有余地识别出一个合适的人选来。

原文:https://learningwithdata.com/posts/tylerfolkman/7-reasons-not-to-hire-a-data-scientist/

本文为 优快云 翻译,转载请注明来源出处。

【End】

更多精彩推荐
☞登 GitHub 趋势榜首德国疫情追踪 App 号称可保疫情隐私数据无忧,你信吗?
☞安卓机+数据线,带你开发部署人脸识别应用

☞踢翻这碗狗粮:程序员花 7 个月敲出 eBay,只因女票喜欢糖果盒
☞我佛了!用KNN实现验证码识别,又 Get 到一招
☞如何使用 SQL Server FILESTREAM 存储非结构化数据?这篇文章告诉你
☞加密价格更新周期:看似杂乱无章,实际内藏玄机
你点的每个“在看”,我都认真当成了喜欢
MATLAB主动噪声和振动控制算法——对较大的次级路径变化具有鲁棒性内容概要:本文主要介绍了一种在MATLAB环境下实现的主动噪声和振动控制算法,该算法针对较大的次级路径变化具有较强的鲁棒性。文中详细阐述了算法的设计原理与实现方法,重点解决了传统控制系统中因次级路径动态变化导致性能下降的问题。通过引入自适应机制和鲁棒控制策略,提升了系统在复杂环境下的稳定性和控制精度,适用于需要高精度噪声与振动抑制的实际工程场景。此外,文档还列举了多个MATLAB仿真实例及相关科研技术服务内容,涵盖信号处理、智能优化、机器学习等多个交叉领域。; 适合人群:具备一定MATLAB编程基础和控制系统理论知识的科研人员及工程技术人员,尤其适合从事噪声与振动控制、信号处理、自动化等相关领域的研究生和工程师。; 使用场景及目标:①应用于汽车、航空航天、精密仪器等对噪声和振动敏感的工业领域;②用于提升现有主动控制系统对参数变化的适应能力;③为相关科研项目提供算法验证与仿真平台支持; 阅读建议:建议读者结合提供的MATLAB代码进行仿真实验,深入理解算法在同次级路径条件下的响应特性,并可通过调整控制参数进一步探究其鲁棒性边界。同时可参考文档中列出的相关技术案例拓展应用场景。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值