
数据科学
文章平均质量分 96
绝不原创的飞龙
这个作者很懒,什么都没留下…
展开
-
Python 因果推断(下)
六、2007-2009 年大衰退期间加拿大就业市场上白人女性名字的溢价原文:causal-methods.github.io/Book/6%29_The_Premium_of_Having_a_White_Female_Name_in_the_Canadian_Job_Market_During_the_Great_Recession_2007_2009.html译者:飞龙协议:CC BY-NC-SA 4.0Vitor Kamada电子邮件:econometrics.methods@gmail原创 2024-01-30 23:08:37 · 10879 阅读 · 1 评论 -
Python 因果推断(上)
引言原文:causal-methods.github.io/Book/Introduction.html译者:飞龙协议:CC BY-NC-SA 4.0作者:Vitor Kamada电子邮件:econometrics.methods@gmail.com最后更新日期:2020 年 8 月 15 日这本书是使用 Python 进行因果推断的实用指南。我解释了出现在经济学最负盛名的期刊,如《美丨国经济评论》和《计量经济学》中的方法和技术。我不假设任何技术背景,但我建议您熟悉我之前的书中的概念:P原创 2024-01-30 23:02:02 · 2274 阅读 · 0 评论 -
斯坦福 Stats60:21 世纪的统计学:第十五章到第十八章
第十五章:比较均值原文:statsthinking21.github.io/statsthinking21-core-site/comparing-means.html译者:飞龙协议:CC BY-NC-SA 4.0我们已经遇到了许多情况,我们想要询问样本均值的问题。在本章中,我们将更深入地探讨我们可以比较不同组均值的各种方法。15.1 测试单个均值的值我们可能想要询问均值是否具有特定值的最简单的问题。假设我们想要测试 NHANES 数据集中成年人的舒张压均值是否高于 80,这是根据美国心脏病原创 2024-01-15 23:30:46 · 1863 阅读 · 0 评论 -
斯坦福 Stats60:21 世纪的统计学:第十章到第十四章
第十章:量化效应和设计研究原文:statsthinking21.github.io/statsthinking21-core-site/ci-effect-size-power.html译者:飞龙协议:CC BY-NC-SA 4.0在上一章中,我们讨论了如何使用数据来检验假设。这些方法提供了一个二元答案:我们要么拒绝要么未能拒绝零假设。然而,这种决定忽略了一些重要的问题。首先,我们想知道答案有多大的不确定性(无论结果如何)。此外,有时我们没有一个明确的零假设,因此我们想看到与数据一致的估计范围。原创 2024-01-15 23:28:01 · 1972 阅读 · 0 评论 -
斯坦福 Stats60:21 世纪的统计学:第五章到第九章
第五章:将模型拟合到数据原文:statsthinking21.github.io/statsthinking21-core-site/fitting-models.html译者:飞龙协议:CC BY-NC-SA 4.0统计学中的一个基本活动是创建能够用少量数字总结数据的模型,从而提供数据的简洁描述。在本章中,我们将讨论统计模型的概念以及如何用它来描述数据。5.1 什么是模型?在物理世界中,“模型”通常是对现实世界中的事物的简化,但仍然传达了被建模事物的本质。建筑物的模型传达了建筑物的结构,同原创 2024-01-15 23:25:18 · 1091 阅读 · 0 评论 -
斯坦福 Stats60:21 世纪的统计学:前言到第四章
统计思维是一种通过相对简单的方式描述复杂世界的方式,这种方式能够捕捉其结构或功能的基本方面,并且也能够让我们对这些知识的不确定性有一些了解。统计思维的基础主要来自数学和统计学,但也来自计算机科学、心理学和其他研究领域。我们可以区分统计思维与其他不太可能准确描述世界的思维形式。特别是,人类直觉经常试图回答我们可以用统计思维回答的相同问题,但通常得到错误的答案。例如,近年来,大多数美国人报告说他们认为暴力犯罪比前一年更糟(皮尤研究中心。原创 2024-01-15 23:21:45 · 1349 阅读 · 0 评论 -
UCB Data100:数据科学的原理和技巧:第二十一章到第二十六章
二十一、SQL II原文:SQL II译者:飞龙协议:CC BY-NC-SA 4.0学习成果介绍过滤组的能力在 SQL 中执行数据清理和文本操作跨表连接数据在本讲座中,我们将继续上次的工作,介绍一些高级的 SQL 语法。首先,让我们加载上一堂课的数据库。# Load the SQL Alchemy Python libraryimport sqlalchemyimport pandas as pd%load_ext sql%%sqlsqlite:///d原创 2024-01-12 23:55:19 · 1265 阅读 · 0 评论 -
UCB Data100:数据科学的原理和技巧:第十九章到第二十章
学习成果计算参数的估计器的偏差、方差和均方误差介绍拟合模型的模型风险将模型风险分解为偏差和方差项构建假设检验的置信区间了解我们所做的假设及其对回归推断的影响比较回归和因果关系实验设置、混杂变量、平均处理效应和协变量调整**上次,我们介绍了随机变量的概念及其对我们用来拟合模型的观察关系的影响。在本讲座中,我们将探讨从拟合模型中分解模型风险,通过假设检验进行回归推断,并考虑我们所做的假设以及理论和实践中理解因果关系的环境。原创 2024-01-12 23:54:04 · 1149 阅读 · 0 评论 -
UCB Data100:数据科学的原理和技巧:第十六章到第十八章
十六、交叉验证和正则化Cross Validation and Regularization译者:飞龙协议:CC BY-NC-SA 4.0学习成果认识到需要验证和测试集来预览模型在未知数据上的表现应用交叉验证来选择模型超参数了解 L1 和 L2 正则化的概念基础在特征工程讲座结束时(第 14 讲),我们提出了调整模型复杂度的问题。我们发现一个过于复杂的模型会导致过拟合,而一个过于简单的模型会导致欠拟合。这带来了一个自然的问题:我们如何控制模型复杂度以避免欠拟合和过拟合?原创 2024-01-12 23:53:34 · 1072 阅读 · 0 评论 -
UCB Data100:数据科学的原理和技巧:第十三章到第十五章
十三、梯度下降原文:Gradient Descent译者:飞龙协议:CC BY-NC-SA 4.0学习成果优化复杂模型识别直接微积分或几何论证无法帮助解决损失函数的情况应用梯度下降进行数值优化到目前为止,我们已经非常熟悉选择模型和相应损失函数的过程,并通过选择最小化损失函数的θ\thetaθ的值来优化参数。到目前为止,我们已经通过以下两种方法优化了θ\thetaθ:1. 使用微积分对损失函数关于θ\thetaθ的导数进行求导,将其置为 0,并解出θ\thetaθ。2. 使原创 2024-01-12 23:47:58 · 1045 阅读 · 0 评论 -
UCB Data100:数据科学的原理和技巧:第十一章到第十二章
十一、恒定模型、损失和转换原文:Constant Model, Loss, and Transformations译者:飞龙协议:CC BY-NC-SA 4.0学习成果推导出在 MSE 和 MAE 成本函数下恒定模型的最佳模型参数。评估 MSE 和 MAE 风险之间的差异。理解变量线性化的必要性,并应用图基-莫斯特勒凸图进行转换。上次,我们介绍了建模过程。我们建立了一个框架,根据一套工作流程,预测目标变量作为我们特征的函数:选择模型 - 我们应该如何表示世界?原创 2024-01-12 23:47:11 · 2971 阅读 · 0 评论 -
UCB Data100:数据科学的原理和技巧:第六章到第十章
六、正则表达式原文:Regular Expressions译者:飞龙协议:CC BY-NC-SA 4.0学习成果了解 Python 字符串操作,pandas Series方法解析和创建正则表达式,使用参考表使用词汇(闭包、元字符、组等)描述正则表达式元字符这些内容在第 6 和第 7 讲中涵盖。6.1 为什么处理文本?上一堂课,我们了解了定量和定性变量类型之间的区别。后者包括字符串数据——第 6 讲的主要焦点。在本笔记中,我们将讨论操纵文本所需的工具:python字符串原创 2024-01-12 23:33:49 · 1486 阅读 · 0 评论 -
UCB Data100:数据科学的原理和技巧:第一章到第五章
一、引言原文:Introduction译者:飞龙协议:CC BY-NC-SA 4.0学习成果了解 Data 100 的总体目标了解数据科学生命周期的阶段数据科学是一个跨学科领域,具有各种应用,并且在解决具有挑战性的社会问题方面具有巨大潜力。通过建立数据科学技能,您可以赋予自己参与和引领塑造您的生活和整个社会对话的能力,无论是与气候变化作斗争、推出多样性倡议,还是其他方面。这个领域正在迅速发展;现代数据科学中许多关键技术基础在 21 世纪初得到了普及。它基本上是以人为中心的,原创 2024-01-12 23:28:19 · 1285 阅读 · 0 评论 -
NumPy 初学者指南中文第三版:11~14
您可能会发现本书中提到 Pygame 有点奇怪。但是,阅读本章后,我希望您意识到 NumPy 和 Pygame 可以很好地结合在一起。毕竟,游戏涉及大量计算,因此 NumPy 和 SciPy 是理想的选择,并且它们还需要中提供的人工智能功能。无论如何,制作游戏都很有趣,我们希望最后一章相当于十道菜后的精美甜点或咖啡!如果您仍然渴望更多,请查看《NumPy Cookbook 第二版》,Ivan Idris,在本书的基础上以最小的重叠为基础。mat和bmat函数接受的字符串中的行分隔符是什么?分号。原创 2023-04-12 23:09:24 · 2550 阅读 · 0 评论 -
NumPy 初学者指南中文第三版:6~10
原文:NumPy: Beginner’s Guide - Third Edition协议:CC BY-NC-SA 4.0译者:飞龙六、深入探索 NumPy 模块NumPy 具有许多从其前身 Numeric 继承的模块。 其中一些包具有 SciPy 对应版本,可能具有更完整的功能。 我们将在下一章中讨论 SciPy。在本章中,我们将介绍以下主题:linalg包fft包随机数连续和离散分布线性代数线性代数是数学的重要分支。 numpy.linalg包包含线性代数函数。 使用此模块,原创 2023-04-12 23:02:01 · 2577 阅读 · 0 评论 -
NumPy 初学者指南中文第三版:1~5
原文:NumPy: Beginner’s Guide - Third Edition协议:CC BY-NC-SA 4.0译者:飞龙一、NumPy 快速入门让我们开始吧。 我们将在不同的操作系统上安装 NumPy 和相关软件,并看一些使用 NumPy 的简单代码。 本章简要介绍了 IPython 交互式 shell。 SciPy 与 NumPy 密切相关,因此您将看到 SciPy 名称出现在此处和那里。 在本章的最后,您将找到有关如何在线获取更多信息的指南,如果您陷入困境或不确定解决问题的最佳方法原创 2023-04-12 22:56:03 · 2726 阅读 · 0 评论 -
NumPy 秘籍中文第二版:十二、使用 NumPy 进行探索性和预测性数据分析
数据分析是 NumPy 最重要的用例之一。根据我们的目标,我们可以区分数据分析的许多阶段和类型。在本章中,我们将讨论探索性和预测性数据分析。探索性数据分析可探查数据的线索。在此阶段,我们可能不熟悉数据集。预测分析试图使用模型来预测有关数据的某些信息。数据来自荷兰气象局 KNMI。特别是 KNMI 总部位于 De Bilt 的气象站。在这些秘籍中,我们将检查气压和最大可见度。我修改了文本数据并将其从 KNMI 转换为 NumPy 特定的.npy格式,并保存为40996 x 5数组。YYYYMMDD。原创 2023-04-12 22:09:40 · 2457 阅读 · 0 评论 -
NumPy 秘籍中文第二版:十一、最新最强的 NumPy
自《NumPy 秘籍》第一版以来,NumPy 团队引入了新功能;我将在本章中对其进行描述。您可能不太可能阅读本书的第一版,而现在正在阅读第二版。我在 2012 年撰写了第一版,并使用了当时可用的功能。NumPy 具有许多功能,因此您不能期望涵盖所有功能,但是我在本章中介绍的功能相对重要。原创 2023-04-12 22:10:38 · 257 阅读 · 0 评论 -
NumPy 秘籍中文第二版:十、Scikits 的乐趣
Scikits是小型的独立项目,以某种方式与 SciPy 相关,但不属于 SciPy。这些项目不是完全独立的,而是作为一个联合体在伞下运行的。scikit-learn,机器学习包Statsmodels,统计数据包scikit-image,图像处理包Pandas,数据分析包。原创 2023-04-12 22:07:36 · 2180 阅读 · 0 评论 -
NumPy 秘籍中文第二版:九、使用 Cython 加速代码
Cython是基于 Python 的相对年轻的编程语言。它允许编码人员将 C 的速度与 Python 的功能混合在一起。与 Python 的区别在于我们可以选择声明静态类型。许多编程语言(例如 C)具有静态类型,这意味着我们必须告诉 C 变量的类型,函数参数和返回值类型。另一个区别是 C 是一种编译语言,而 Python 是一种解释语言。根据经验,可以说 C 比 Python 更快,但灵活性更低。通过 Cython 代码,我们可以生成 C 或 C++ 代码。原创 2023-04-12 22:06:23 · 612 阅读 · 0 评论 -
NumPy 秘籍中文第二版:八、质量保证
与普遍的看法相反,质量保证与其说是发现错误,不如说是发现它们。我们将讨论两种提高代码质量,从而防止出现问题的方法。首先,我们将对已经存在的代码进行静态分析。然后,我们将讨论单元测试;这包括模拟和行为驱动开发BDD。原创 2023-04-12 22:02:34 · 2209 阅读 · 0 评论 -
NumPy 秘籍中文第二版:七、性能分析和调试
调试是从软件中查找和删除错误的行为。分析是指构建程序的概要文件,以便收集有关内存使用或时间复杂度的信息。分析和调试是开发人员生活中必不可少的活动。对于复杂的软件尤其如此。好消息是,许多工具可以为您提供帮助。我们将回顾 NumPy 用户中流行的技术。原创 2023-04-12 22:00:48 · 2258 阅读 · 0 评论 -
NumPy 秘籍中文第二版:六、特殊数组和通用函数
本章是关于特殊数组和通用函数的。这些是您每天可能不会遇到的主题,但是它们仍然很重要,因此在此需要提及。**通用函数(Ufuncs)**逐个元素或标量地作用于数组。Ufuncs 接受一组标量作为输入,并产生一组标量作为输出。通用函数通常可以映射到它们的数学对等物上,例如加法,减法,除法,乘法等。这里提到的特殊数组是基本 NumPy 数组对象的所有子类,并提供其他功能。原创 2023-04-12 22:02:09 · 2643 阅读 · 0 评论 -
NumPy 秘籍中文第二版:五、音频和图像处理
尽管本书中的所有章节都很有趣,但在本章中,我们确实会继续努力并专注于获得乐趣。在第 10 章,“Scikits 的乐趣”中,您会发现更多使用的图像处理秘籍。不幸的是,本书没有对音频文件的直接支持,因此您确实需要运行代码示例以充分了解其中的秘籍。原创 2023-04-12 22:00:45 · 1724 阅读 · 0 评论 -
NumPy 秘籍中文第二版:四、将 NumPy 与世界的其他地方连接
本章是关于互操作性的。我们必须不断提醒自己,NumPy 在科学(Python)软件生态系统中并不孤单。与 SciPy 和 matplotlib 一起工作非常容易。还存在用于与其他 Python 包互操作性的协议。在 Python 生态系统之外,Java,R,C 和 Fortran 等语言非常流行。我们将详细介绍与这些环境交换数据的细节。此外,我们还将讨论如何在云上获取 NumPy 代码。这是在快速移动的空间中不断发展的技术。原创 2023-04-12 21:56:16 · 1520 阅读 · 0 评论 -
NumPy 秘籍中文第二版:三、掌握常用函数
本章介绍常用的 NumPy 函数。这些是您每天将要使用的函数。显然,用法可能与您不同。NumPy 函数太多,以至于几乎不可能全部了解,但是本章中的函数是我们应该熟悉的最低要求。原创 2023-04-12 21:57:24 · 2151 阅读 · 0 评论 -
NumPy 秘籍中文第二版:二、高级索引和数组概念
NumPy 以其高效的数组而闻名。之所以成名,部分原因是索引容易。我们将演示使用图像的高级索引技巧。在深入研究索引之前,我们将安装必要的软件 – SciPy 和 PIL。如果您认为有此需要,请参阅第 1 章“使用 IPython”的“安装 matplotlib”秘籍。我们还将尽可能为print()Python 函数使用最新的语法。原创 2023-04-12 21:52:21 · 2240 阅读 · 0 评论 -
NumPy 秘籍中文第二版:一、使用 IPython
IPython,可从获得,是一个免费的开源项目 ,可用于 Linux,Unix,MacOSX, 和 Windows。IPython 作者仅要求您在使用 IPython 的任何科学著作中引用 IPython。IPython 提供了用于交互式计算的架构。该项目最值得注意的部分是 IPython shell。交互式 Python Shell(基于终端的 Qt 应用)一个 Web 笔记本(在 IPython 0.12 和更高版本中可用),支持富媒体和绘图。原创 2023-04-12 21:49:36 · 2355 阅读 · 0 评论 -
ApacheCN 数据科学译文集 20211109 更新
计算与推断思维一、数据科学二、因果和实验三、Python 编程四、数据类型五、表格六、可视化七、函数和表格八、随机性九、经验分布十、假设检验十一、估计十二、为什么均值重要十三、预测十四、回归的推断十五、分类十六、比较两个样本十七、更新预测利用 Python 进行数据分析 · 第 2 版第 1 章 准备工作第 2 章 Python 语法基础,IPython 和 Jupyter 笔记本第 3 章 Python 的数据结构、函数和文件第 4 章 NumPy 基.原创 2021-11-13 18:56:11 · 875 阅读 · 0 评论 -
ApacheCN 数据科学译文集 20210313 更新
新增了五个教程:Python 和 Jupyter 机器学习入门零、前言一、Jupyter 基础知识二、数据清理和高级机器学习三、Web 爬取和交互式可视化Python 数据科学和机器学习实践指南零、前言一、入门二、统计和概率回顾和 Python 实践三、Matplotlib 和高级概率概念四、预测模型五、Python 机器学习六、推荐系统七、更多数据挖掘和机器学习技术八、处理真实数据九、Apache Spark-大数据机器学习十、测试与实验设计精通 Pyth原创 2021-03-13 13:52:27 · 413 阅读 · 0 评论 -
NumPy Beginner's Guide 2e 带注释源码 三、熟悉 NumPy 常用函数
熟悉 NumPy 常用函数# 来源:NumPy Biginner's Guide 2e ch3读写文件import numpy as np# eye 用于创建单位矩阵i2 = np.eye(2)print i2'''[[ 1. 0.][ 0. 1.]]'''# 将数组以纯文本保存到 eye.txt 中np.savetxt("eye.txt", i2)'''eye.txt:1.原创 2017-06-10 17:49:41 · 40613 阅读 · 1 评论 -
计算布林带
计算布林带# coding: utf-8# 作者:Wizard <github.com/wizardforcel>import numpy as npfrom matplotlib import pyplot as pltimport sys# 获取数据# 因为没找到数据源,所以直接随机生成了series = np.random.rand(100) * 10 + 10ser_len =原创 2017-06-10 17:51:31 · 41830 阅读 · 0 评论 -
NumPy Beginner's Guide 2e 带注释源码 九、使用 Matplotlib 绘图
使用 Matplotlib 绘图# 来源:NumPy Biginner's Guide 2e ch9绘制多项式函数import numpy as npimport matplotlib.pyplot as plt# 创建函数 func = x ** 3 + 2 * x ** 2 + 3 * x + 4# poly1d 根据系数数组创建函数,高项系数在前func = np.poly1d(np.a原创 2017-06-10 22:15:30 · 40845 阅读 · 0 评论 -
NumPy Cookbook 带注释源码 三、掌握 NumPy 常用函数
掌握 NumPy 常用函数斐波那契数的第 n 项# 来源:NumPy Cookbook 2e Ch3.1import numpy as np# 斐波那契数列的每个新项都由之前的两项相加而成# 以 1 和 2 开始,前 10 项为:# 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, ...# 斐波那契数列的通项公式为:# fn = (phi ** n - (-phi) **原创 2017-06-11 16:59:18 · 38984 阅读 · 0 评论 -
预测今后的北京高考人数
# coding: utf-8# 作者:Wizard <github.com/wizardforcel># 预测今后的北京高考人数# 假设 x 年的出生人数和 (x + 18) 年的高考人数是线性关系def unary_linear_fit(x, y): assert(x.ndim == 1 and y.ndim == 1 and len(x) == len(y)) cov_x_y原创 2017-06-23 09:36:44 · 39611 阅读 · 0 评论 -
NumPy Cookbook 带注释源码 四、连接 NumPy 与 剩余世界
连接 NumPy 与 剩余世界# 来源:NumPy Cookbook 2e Ch4使用缓冲区协议# 协议在 Python 中相当于接口# 是一种约束import numpy as np import Image # from PIL import Image (Python 3) import scipy.misclena = scipy.misc.lena() # Lena 是 512原创 2017-06-12 09:24:07 · 38472 阅读 · 0 评论 -
NumPy Cookbook 带注释源码 五、NumPy 音频和图像处理
NumPy 音频和图像处理# 来源:NumPy Cookbook 2e Ch5将图像加载进内存import numpy as np import matplotlib.pyplot as plt# 首先生成一个 512x512 的图像# 在里面画 30 个正方形N = 512 NSQUARES = 30# 初始化img = np.zeros((N, N), np.uint8) # 正方形原创 2017-06-12 20:10:59 · 40305 阅读 · 1 评论 -
NumPy Cookbook 带注释源码 六、NumPy 特殊数组与通用函数
NumPy 特殊数组与通用函数# 来源:NumPy Cookbook 2e ch6创建通用函数from __future__ import print_function import numpy as np# 我们需要定义对单个元素操作的函数def double(a): return 2 * a# frompyfunc(或者 vectorize)# 将其转换为对数组每个元素操作的函数原创 2017-06-14 20:33:10 · 38830 阅读 · 0 评论 -
NumPy Cookbook 带注释源码 十、Scikit 中的乐趣
Scikit 中的乐趣# 来源:NumPy Cookbook 2e Ch10加载示例数据集from __future__ import print_function from sklearn import datasets# datasets.load_? 用于加载不同的数据集print filter(lambda s: s.startswith('load_'), dir(datasets))原创 2017-06-14 20:38:42 · 40110 阅读 · 0 评论 -
NumPy Cookbook 带注释源码 十一、NumPy 的底牌
NumPy 的底牌# 来源:NumPy Cookbook 2e Ch11np.random.seed(44) a = np.random.random_integers(-4, 4, 7) print(a) # [ 0 -1 -3 -1 -4 0 -1]# ufunc 的 at 方法可以对数组元素部分调用np.sign.at(a, [2, 4]) print(a) # np.sign.原创 2017-06-14 20:41:29 · 39101 阅读 · 0 评论