数据科学革新NFL四分卫传球评分新模型

引言:解决业务问题的数据科学

在某个机构的专业服务团队中,首席数据科学家埃琳娜·埃利希的工作涉及从时间序列建模、计算机视觉项目到自然语言处理问题等多个领域。她的任务是为媒体、能源和体育等多个行业的客户解决数据问题[citation:2]。

客户有时会带着特定的模型构想前来咨询,寻求构建或优化的建议。但更多时候,客户仅仅有一个需要解决的商业问题。埃利希会与他们合作,用数月到数年的时间开发一套解决方案,并由客户在日后自行维护。她很喜欢这种无需更换工作或团队,就能将数据科学应用于不同垂直领域的能力[citation:2]。

核心挑战:精准预测“重尾”时间序列中的异常值

埃利希与NFL的合作是将科学应用于商业挑战的一个范例。她和同事独立开发了一种用于模拟“重尾”时间序列的方法。这类数据序列中可能出现剧烈且不可预测的尖峰,例如,一年中的极端降雨事件,或某个产品突然爆红导致需求激增[citation:2]。

许多统计方法在处理更均匀的曲线时表现良好,但面对“重尾”时间序列的“噪声”时却容易失效。然而,准确描述这些“尾部”特征至关重要。以心电图为例,必须能够判断心率的峰值是疾病的信号,还是仅仅是运动开始的标志。当时的预测模型无法可靠地识别此类异常[citation:2]。

在几个月的时间里,埃利希与某机构的两位研究员共同开发了解决方案,并在2021年国际学习表征会议(ICLR)的RobustML研讨会上发表了成果[citation:2]。

技术方案:拼接分箱-帕累托分布方法

他们的解决方案名为“拼接分箱-帕累托分布”方法,该方法融合了两种统计技术:分箱分布和帕累托分布。帕累托分布源于意大利经济学家维尔弗雷多·帕累托的“二八法则”,即80%的结果来自20%的原因。这种幂律关系经过推广,形成了极值理论的第二定理,该定理指出,任何分布的尾部都可以用广义帕累托分布来很好地近似[citation:2]。

研究人员将此与分箱分布相结合,分箱分布可将较大数据集内的区域离散化。他们的方法有效地隔离并聚焦于时间序列中的尖峰,从而提升了对这些极端值的处理能力,并能随着时间的推移校准对它们的估计,最终实现了更准确的重尾预测[citation:2]。

实际应用:构建全新的NFL传球评分

这项工作恰好契合了NFL的一项需求。虽然存在多种四分卫评分体系,但联盟希望有一个能评估传球表现的指标。然而,一个有意义的传球评分必须超越传球码数、达阵数和被抄截数,要能反映在特定比赛情境下取得这些结果的难度,从而真正评估四分卫的表现[citation:2][citation:4]。

由此诞生的NFL传球评分,正是基于埃利希的“拼接分箱-帕累托分布”方法开发的。该评分能够将四分卫的表现置于联盟整体预期表现的背景中进行评估[citation:2][citation:8]。这是因为它能够估计“重尾”——在这里指的是四分卫传球中的那些特殊时刻——并为其在总评分中分配适当的权重[citation:2]。

NFL在今年早些时候,即超级碗之前,正式推出了新的传球评分[citation:2]。这个案例体现了数据科学与机器学习技术正被越来越多地应用于体育数据分析领域,以构建更精细、更具洞察力的球员表现评估模型[citation:2][citation:4][citation:7]。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值