用我们的最新数学和统计必读书单扩展你的数据科学工具箱

原创于 2025-12-07 01:51:40 发布 · 134 阅读

3 ·

CC 4.0 BY-SA版权

License CC BY-NC-SA 4.0 / 自豪地采用谷歌翻译

文章标签：

#榛樿鍒嗙被

榛樿鍒嗙被专栏收录该内容

804 篇文章

订阅专栏

原文：towardsdatascience.com/expand-your-data-science-toolkit-with-our-latest-math-and-stats-must-reads-3da19a5184c2?source=collection_archive---------8-----------------------#2024-04-25

https://towardsdatascience.medium.com/?source=post_page---byline--3da19a5184c2--------------------------------https://towardsdatascience.com/?source=post_page---byline--3da19a5184c2-------------------------------- TDS 编辑

·发表于 Towards Data Science ·发送为新闻通讯 ·4 分钟阅读·2024 年 4 月 25 日

–

受到启发，想写下你的第一篇 TDS 文章吗？我们始终欢迎新作者的投稿。

数据科学家在日常工作中使用的数学基本原理可能已经存在了几个世纪，但这并不意味着我们应该像第一次学习时那样仅仅学一遍，然后将知识存放在某个尘封的心理阁楼里。实践方法、工具和应用案例不断发展，随之而来的是需要保持与时俱进。

本周，我们很高兴分享一系列强大的近期数学与统计必读书单，涵盖了各种问题与应用。从利用（非常）小的数据集到以易懂、生动的方式呈现线性回归，我们相信你一定能找到新的、实用的内容来探索。让我们一起深入了解吧！

N-of-1 试验与分析你自己的健身数据 N-of-1 研究的理念是，即使你使用的数据仅来自一个人的输入，你依然能够得出有意义的见解。这对于设计个性化的健康管理策略具有深远的潜力，或者在Merete Lutz的迷人项目中，建立酒精消费与睡眠质量之间的有意义联系。
**你的时间序列预测有多可靠？**做出长期预测很容易；做出准确的长期预测就没有那么简单了。Bradley Stephen Shaw最近分享了一份实用指南，帮助你通过有效使用交叉验证、可视化和统计假设检验来确定你预测的可靠性边界。
使用 LangChain 代理构建数学应用尽管大规模语言模型（LLMs）在过去几年中取得了重大进展，但数学仍然是它们的难点之一。在她最新的实践教程中，Tahreem Rasul分析了我们在尝试让这些模型执行数学和统计操作时所面临的挑战，并概述了使用 LangChain 代理、OpenAI 和 Chainlit 构建基于 LLM 的数学应用的解决方案。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/863a65a65f0698b34fd1d92f77b90df6.png

图片来源：Chloe Frost-Smith在Unsplash上的作品

中心极限定理的证明看到一个抽象概念变得具体，并且在这个过程中变得更加易于理解和直观，始终是一件令人欣喜的事情。这正是Sachin Date在他最新的深入分析中所做的，他通过糖果的例子向我们展示了中心极限定理的内部原理，“这是统计科学中最深远且令人愉快的定理之一”。
用 8 种图表向外行解释线性回归即使你是一个专业的数据科学家或机器学习工程师，完全理解你的统计分析的意义，很多同事和其他利益相关者可能并不理解。这就是强大可视化效果能够产生重大影响的地方，Conor O’Sullivan通过八种不同的残差、权重、效应和 SHAP 图表有效地解释了线性回归模型。

本周有想扩展数学和统计学之外的领域吗？我们希望是这样！以下是我们最近在其他主题上的一些精选阅读：

如果你正在考虑通过参与开源项目来回馈社区，千万不要错过Mike Clayton对他修复流行的 Pandas 库中的漏洞经历的精彩总结。
气候变化可能是我们今天面临的决定性全球挑战；Thu Vu分享了一个基于数据的、关于其规模的有益视角，并反思了人工智能在帮助我们缓解部分后果方面的潜力。
对于那些有动手实践兴趣的人，我们强烈推荐Alison Yuhan Yao的新半自动图像分割标注教程，基于一个最近聚焦于 T 台秀图像的项目。
强有力的单元测试实践在软件开发者中很常见；Jonathan Serrano也倡导在数据科学和机器学习工作流中更广泛地采用这些实践，并解释了这种前期投入如何在长期内带来回报。
机器学习产品经理正在密切关注驱动其工具的技术基础设施，但正如Janna Lipenkova所强调的，确保它们提供流畅的用户体验同样至关重要。
当前的就业市场对许多数据专业人士来说是充满挑战的，这已不是什么秘密。Erin Wilson对她最近求职旅程的视觉总结提供了充足的灵感—以及务实的见解，来支持你在求职过程中的努力。
推动类人机器人进入生产线主流需要什么条件？Nikolaus Correll从机器人创新前沿报道，分析了人工智能的最新进展如何推动该领域的重大转变。