数据科学家在云端工作。作为学生如何练习这一点（第二部分：Python）

原创于 2025-11-27 00:05:41 发布 · 310 阅读

5 ·

CC 4.0 BY-SA版权

License CC BY-NC-SA 4.0 / 自豪地采用谷歌翻译

文章标签：

#榛樿鍒嗙被

榛樿鍒嗙被专栏收录该内容

731 篇文章

订阅专栏

原文：towardsdatascience.com/data-scientists-work-in-the-cloud-heres-how-to-practice-this-as-a-student-part-2-python-5b5550a5944c

数据科学家在云端工作。作为学生如何练习这一点（第二部分：Python）

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/0e1b4a4f8b357d5471b50f697dbbd75d.png

由 Luke Chesser 在 Unsplash 上的图片

如果你想要成为一名数据科学家，仅仅知道如何编码是不够的——你还需要知道如何在云端运行你的代码。

当我申请我的第一份数据科学工作时，这是一个真正的问题。

职位描述中经常包含像“AWS”或“GCP”这样的要求，但我所参加的编码课程专注于如何编写正确的语法，并没有教我很多关于在云环境中实际运行代码所需的系统。

在这个系列中，我提供了一些关于如何练习数据科学云编码的建议。这个系列针对两种类型的人：

有志成为数据科学家的人——如果你是有一点数据经验的人（例如，你已经在本地 Anaconda 环境或 Jupyter 笔记本中使用过 Python，或者你在 Udemy 或 DataCamp 上的沙盒中运行过 SQL 查询），这将帮助你填补你技能组合中的一个重要空白，当你准备获得行业数据科学职位时。
想要摆脱本地 Jupyter 笔记本的数据科学家——用 Pau Labarta Bajo 的话说，“Jupyter 笔记本中的 ML 模型商业价值为 $0.00。”这个系列将帮助你摆脱笔记本，增加你可以为公司提供的价值。

然而，为了这个教程的目的，我将使用 Google Colaboratory，“一个无需设置且完全在云端运行的免费 Jupyter notebook 环境。” 我喜欢 Colab 的主要原因有（1）与一些其他工具不同，它不需要信用卡即可设置，并且（2）它将很好地延续我之前的教程，该教程专注于 BigQuery。

要设置环境，你可以遵循这个设置教程，其中包含如何自定义环境的说明，例如添加更多 GPU。

当你在 Colab 中打开一个新的笔记本时，你会在sample_data文件夹中看到一些起始数据。它还附带了许多预安装的包，因此你可以运行像import pandas as pd这样的语句而不需要使用 pip 安装 pandas。这在许多云平台上很常见——通常，你的公司的云工程师会为整个公司预先配置编码环境（例如，以确保所有笔记本遵循安全最佳实践），因此许多包会预先安装。

一旦你进入 Colab，你可以像在本地笔记本中一样从文件系统加载数据。例如，这就是我们加载sample_data/california_housing_train.csv数据集的方式：

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/116e1a2a3fe38d98ae5d3e77aa9b28ac.png

图片由作者提供

除了sample_data/中的数据之外，你还有几种选择来加载外部数据以练习 Python（这篇文章提供了 7 种不同数据加载器的良好概述）。

示例：从 BigQuery 加载数据

让我们看看如何从另一个云源加载数据的示例。

如果你正在 BigQuery 中使用 SQL 数据，你可以通过%%bigquery 单元格魔法使用 BigQuery API 直接将这些数据加载到 Colab 中。以下是一个示例查询，它基于我之前的教程使用 StackOverflow 数据集：

%%bigquery df
SELECT
  EXTRACT(YEAR FROM creation_date) AS Year,
  COUNT(*) AS Number_of_Questions,
  ROUND(100 * SUM(IF(answer_count > 0, 1, 0)) / COUNT(*), 1) AS Percent_Questions_with_Answers
FROM
  `bigquery-public-data.stackoverflow.posts_questions`
GROUP BY
  Year
HAVING
  Year = 2015
ORDER BY
  Year

如果你在你 Colab 笔记本的单元格中运行该查询，该查询生成的数据（从SELECT开始）将被保存为名为df的本地 pandas DataFrame（我们在第一行指定的名称），然后你可以使用笔记本中的其余部分。

2. 通过 GitHub Actions 运行 Python 脚本

数据科学家经常因为过于痴迷于 Jupyter 笔记本而受到批评：

Jupyter 笔记本中的 ML 模型具有$𝟬.𝟬𝟬 (Pau Labarta Bajo)的商业价值

这对我来说有点夸张！（模型也可以作为一次性分析的一部分使用，对于这种情况，笔记本是完美的。）但 Pau 的观点在许多情况下仍然适用：对于许多 Python 脚本/模型来说，要具有价值，它们需要作为可以按需调用（实时推理）或定期批量运行的管道在云中部署和运行（批量推理）。

让我们看看如何在云中通过 GitHub Actions 运行 Python 脚本的一个简单示例。

训练模型（.ipynb）和创建评分脚本（.py）

首先，创建一个新的目录并创建一个新的名为train.ipynb的笔记本，这是我们将在其中训练我们的 ML 模型的地方：

mkdir ml-github-actions
cd ml-github-actions
touch train.ipynb

由于本文重点介绍如何在云中运行 Python 代码（而不是训练复杂模型），我们将仅使用一个 DummyClassifier，该分类器总是预测在训练期间观察到的最频繁的类别：

import numpy as np
from sklearn.dummy import DummyClassifier
import joblib

X = np.array([-1, 1, 1, 1]) # 4 random records for model training, each with one input feature (which has a value of 1 or -1)
y = np.array([0, 1, 1, 1]) # Target can be either 0 or 1

dummy_clf = DummyClassifier(strategy="most_frequent")
dummy_clf.fit(X, y)

joblib.dump(dummy_clf, 'dummy_clf.joblib')

当你运行它时，将创建一个名为 dummy_clf.joblib 的新文件。

接下来，让我们创建一个名为 scoring_data.csv 的文件，该文件包含了一组（虚假的）输入数据，我们希望为这些数据生成模型分数：

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/a4efd57952956ca2b5b88cf900237dd4.png

图片由作者提供。我在 Excel 中创建了数据，保存为 csv 格式，并上传到我的 ml-github-actions 目录。

接下来，我们创建一个名为 score.py 的 Python 脚本，该脚本加载模型、加载数据并生成预测。我们将使用 Python 的 logging 库将分数记录到名为 scores.log 的文件中：

touch score.py

import pandas as pd
import joblib
import logging

def main():
    """
    Loads data and model, generates predictions, and logs
    to scores.log
    """

    # Load data to be scored
    scoring_data = pd.read_csv('scoring_data.csv')

    # Load model
    dummy_clf = joblib.load('dummy_clf.joblib')

    # Generate scores
    scores = dummy_clf.predict(scoring_data)

    # Log scores
    logging.basicConfig(level=logging.INFO)
    logger = logging.getLogger(__name__)
    f_handler = logging.FileHandler('scores.log')
    f_format = logging.Formatter('%(asctime)s - %(levelname)s - %(message)s')
    f_handler.setFormatter(f_format)
    logger.addHandler(f_handler)
    logger.info(f'Scores: {scores}')

if __name__ == '__main__':
    main()

最后，将你的包版本记录保存到 requirements.txt 文件中：

pip freeze > requirements.txt

这应该是你的最终目录结构：

ml-github-actions
├── train.ipynb
├── dummy_clf.joblib
├── scoring_data.csv
├── score.py
└── requirements.txt

上传到 GitHub

接下来，我们将跳转到 GitHub 并创建一个新的私有仓库（不需要模板），然后我们将把我们的代码推送到 GitHub：

echo "# ml-github-actions" >> README.md
git init
git add README.md
git commit -m "first commit"
git branch -M main
git remote add origin https://github.com/mattschapman/ml-github-actions.git
git push -u origin main

创建一个 GitHub Action 以定期运行你的 `score.py` 脚本

一旦你的代码上传到 GitHub，你将需要创建一个名为 .github/workflows/actions.yml 的附加文件（这是配置我们的 GitHub Action(s) 的地方，并安排它定期运行）。

在 GitHub 中完成此操作，请点击“添加文件”>“+ 创建新文件”，然后在文件名中输入 .github/workflows/actions.yml，并复制下面的代码，这将使 Action 每隔 5 分钟运行一次：

name: run score.py

on:
  schedule:
    - cron: "*/5 * * * *" # Run every 5 minutes

jobs:
  build:
    runs-on: ubuntu-latest
    steps:

      - name: checkout repo content
        uses: actions/checkout@v4 # Checkout the repo content to GitHub runner

      - name: setup python
        uses: actions/setup-python@v5
        with:
          python-version: '3.11'

      - name: install python packages
        run:
          python -m pip install --upgrade pip
          pip install -r requirements.txt

      - name: execute py script
        run: python score.py

      - name: commit files
        run: |
          git config --local user.email "[[email protected]](/cdn-cgi/l/email-protection)"
          git config --local user.name "GitHub Actions"
          git add -A
          git diff-index --quiet HEAD || (git commit -a -m "updated logs" --allow-empty)

      - name: push changes
        uses: ad-m/github-push-action@master
        with:
          github_token: ${{ secrets.GITHUB_TOKEN }}
          branch: ${{ github.ref }}