使用谷歌Colab Notebooks,这6个小技巧你需要掌握

本文介绍了如何在Google Colab中使用暗黑模式,读取CSV文件,快速访问StackOverflow,重启内核,将Notebook提交到GitHub,以及如何分享Notebook。此外,还提供了详细步骤,帮助开发者更好地利用Colab进行AI和数据科学项目。

来源:机器之心

切换暗黑模式、读取 CSV 文件… 这些非常实用的小技巧为开发者使用谷歌 Colab Notebooks 提供了便利。

Google Colab 给广大的 AI 爱好者和开发者提供了免费的 GPU,他们可以在上面轻松地跑 Tensorflow、PyTorch 等深度学习框架。特别地,Colab 实时 Notebooks 在数据共享方面为广大开发者提供了便利,通过链接即可与其他的开发者共享文件。

在本文中,数据科学家 Iden W. 为读者详细地介绍了使用 Google Colab Notebooks 的小技巧,主要包括以下几个方面:

  • 切换暗黑模式

  • 读取 CSV 文件

  • IT问答的快捷方式

  • 启动内核

  • 提交至 GitHub 存储库并共享

  • 分享 Google Colab Notebooks

切换暗黑模式

如果开发者想使用 Google Colab 的暗黑模式,请点击「Tools」选项卡,然后按照下图所示的步骤进行设置。

在「settings」中,你可以单击「Site」菜单,然后选择「dark」功能,单击保存。操作完成后即可切换暗黑模式。

读取 CSV 文件

从 Google Drive 云端硬盘读取 CSV 文件非常容易,你可能在 Google Drive 云盘上为 notebooks 或数据文件创建或指定了文件夹。或者你将数据自动上传至创建的文件夹「drive/MyDrive/Colab Notebooks」。

你只需在「Drive-MyDrive-Colab Notebooks」文件夹找到自己的文件就可以了。右键单击要读取的文件名,你将看到如下所示的菜单。左键单击「Copy path」选项。

有了文件路径后,你可以将路径地址粘贴在代码行中的引号之间。当运行单元格时,「df」也会运行,如下所示

df=pd.read_csv(‘/content/drive/MyDrive/Colab Notebooks/22-Deep Learning/fake_reg.csv’)

Stack Overflow

如果你的代码有问题,则可以点击输出单元格(output cell)下方的「SEARCH STACK OVERFLOW」按钮。

在进行深入研究时,你难免要用到 Google。这时,你可以在页面搜索解决方案,然后返回到浏览器上的 Google Colab 标签。

启动内核

如果 Google Colab 内核有问题,你可以重新启动并运行所有代码,也可以像在 Jupyter notebooks 中那样从菜单中选择选项。具体来讲,选择「Runtime」,然后选择所需的选项。

提交至 GitHub 存储库并共享

当文件在 notebook 中处理完后,你既可以将文件保存到 Google Drive 云盘,也可以将其上传至 GitHub 存储库。

将文件提交至 GitHub 存储库后,你可以使用文件上方的快捷链接(shortcut link)从 GitHub 帐户打开文件。当使用 Google Colab 链接打开文件时,你将看到文件左上角的 GitHub 图标。

如果你想分享 GitHub 文件,则可以点击右上角的「share」按钮。同时会出现一个警告:「警告:共享链接将不包含你的编辑或输出。如果想要包含编辑内容,请选择 File→将副本保存在驱动器(Drive )中,并基于该副本生成链接。」

通过上述方式可以复制并分享 notebook。但是,如果你想分享文件,并希望同事可以看到文件更新和变更,则可以通过 notebook 左上角的链接(Copy to Drive)将其保存到 Drive 中,并共享来自 Google Drive 的链接。

分享 Google Colab Notebook

当你想要分享 notebook(在 Google Drive 文件夹中操作文件),则可以单击「Share」按钮。

你可以将同事的邮件地址添加到下面的行中来分享你的 notebook,然后单击「Done」。

或者,你可以单击「Get link」窗格中的任意位置,然后单击「Restricted 」选项附近的小三角形图标,并将选项更改为「Anyone with the link」,如下所示:

然后单击查看「Viewer」附近的小三角形图标,有 3 个共享选项。「viewer」选项仅显示具有链接的文件;「Commenter」选项可以为他人提供链接,访问者不会对你的文件进行修改,但可以评论;「Editor」选项允许拥有链接的人查看、提交和编辑你的文件。

一旦你设置了其中一个选项,则可以将链接分享给其他人。

原文链接:https://idenw.medium.com/google-colab-2-dark-mode-runtime-share-github-69498e9057e2

---------End---------

 后台回复「微信群」,将邀请加入读者交流群。

《Python知识手册》《Markdown速查表》|《Python时间使用指南》|《Python字符串速查表》|《SQL经典50题》|《Python可视化指南》|《Plotly可视化指南》|《Pandas使用指南》|《机器学习精选》

????分享、点赞、在看,给个三连击呗!???? 

<think>好的,用户现在问的是在Google Colab上应该把数据集放在哪里。首先,我需要回顾之前的对话历史,看看之前给他提供了哪些信息。之前我介绍了本地和云环境的存放方案,选择依据,路径处理最佳实践以及特殊场景建议。现在用户提到他们用的是Colab,所以需要根据Colab的环境特点来调整建议。 首先,我得考虑Colab的工作机制。Colab是基于云端的Jupyter笔记本,使用临时虚拟机,数据默认存储在虚拟机的临时存储中,但关机后数据会丢失。所以用户需要知道如何持久化存储数据,避免每次重新上传。 接下来,用户可能的需求是什么?他们可能在使用Colab进行机器学习项目,需要高效地加载和处理数据,同时可能希望数据在多个会话之间保留。还可能涉及到协作,或者需要处理不同规模的数据集。 然后,我需要整理Colab中常见的数据存储位置选项,包括挂载Google Drive、使用Colab的临时存储、直接上传文件、连接GCS或其他云存储,以及使用BigQuery等数据库。每个选项的优缺点需要明确,比如临时存储的易失性,Google Drive的持久性但速度较慢,GCS适合大数据集等。 还要考虑用户的技术水平。用户可能在Colab上相对新手,所以需要步骤清晰,给出具体的代码示例,比如如何挂载Google Drive,如何访问文件路径,如何上传文件等。同时,提醒他们路径处理的最佳实践,比如使用绝对路径还是相对路径,如何配置路径变量。 另外,需要强调数据持久化的策略,比如在Colab中如何避免数据丢失,推荐使用Google Drive或者云存储。对于不同规模的数据,给出不同的建议,比如小数据集可以直接上传,中等规模用Google Drive,大规模用GCS或BigQuery。 可能用户没有明确说出来的需求是,他们可能在协作时需要共享数据,或者需要版本控制。这时候可能需要提到如何使用DVC或者Git来管理数据版本,但Colab环境下可能需要结合Google Drive来实现。 还需要注意Colab的一些限制,比如上传大文件时的耗时问题,或者处理超大数据集时的内存限制。这时候建议分块处理或者使用流式加载。 最后,总结关键建议,帮助用户快速做出选择,并提醒配置管理和路径处理的技巧,确保项目的可移植性和效率。同时,给出具体的代码示例和步骤,让用户可以直接复制粘贴使用,减少他们的操作难度。</think>在Google Colab环境下,数据集存放的最佳实践需要结合云端协作和临时运行环境的特点,以下是针对Colab的优化方案: 一、Colab存储位置优先级 1. **首选方案:挂载Google Drive** ```python from google.colab import drive drive.mount('/content/drive') # 自动生成访问令牌 数据集路径:'/content/drive/MyDrive/your_project/data/' ``` *优势*:数据持久化、支持版本管理 *局限*:大文件加载速度较慢 2. **临时方案:Colab工作区存储** ```python 默认路径:'/content/' 适合存放<2GB的临时文件 ``` 3. **专业方案:GCS集成** ```python from google.cloud import storage client = storage.Client() bucket = client.get_bucket('your-bucket-name') blob = bucket.blob('data.csv') blob.download_to_filename('/content/data.csv') ``` 二、目录结构建议 ```bash /content/drive/MyDrive/ └── ML_Projects/    └── project_name/    ├── notebooks/ # 存放Colab笔记本    ├── data/ # 主数据集目录    │   ├── raw/ # 原始数据    │   └── processed/ # 处理后的数据    └── models/ # 训练好的模型 ``` 三、性能优化技巧 1. **数据加载加速**: ```python # 将小数据集直接加载到内存 import pandas as pd df = pd.read_csv('/content/drive/MyDrive/data.csv') # 大数据集建议先复制到临时空间 !cp /content/drive/MyDrive/large_data.csv /content/ df = pd.read_csv('/content/large_data.csv') ``` 2. **路径管理规范**: ```python import os # 自动检测运行环境 if 'google.colab' in str(get_ipython()): BASE_PATH = '/content/drive/MyDrive/project_name/' else: BASE_PATH = os.path.dirname(__file__) DATA_PATH = os.path.join(BASE_PATH, 'data/raw') ``` 四、特殊场景处理 1. **超大数据集处理**: ```python # 使用PySpark直接读取GCS数据 spark.conf.set('spark.hadoop.google.cloud.auth.service.account.enable', 'true') df = spark.read.csv('gs://your-bucket/data/*.csv') ``` 2. **协作开发建议**: ```python # 在notebook开头添加环境检测 try: from google.colab import drive IN_COLAB = True except: IN_COLAB = False # 自动创建必要目录 if IN_COLAB: !mkdir -p "/content/drive/MyDrive/project_name/{data/raw,data/processed}" ``` 五、注意事项 1. **会话超时处理**:建议每30分钟执行`!date`命令保持会话激活 2. **存储空间限制**:免费版Drive只有15GB,教育版/付费版可达1TB 3. **路径差异**:Colab中的路径使用Linux格式(正斜杠/) 4. **数据版本控制**:推荐使用`dvc` + `git`的组合方案 **推荐工作流**: 1. 小数据集(<500MB):直接上传到Colab临时空间 2. 中等数据集(500MB-5GB):存储在Google Drive 3. 大数据集(>5GB):使用GCS或BigQuery存储 4. 实时数据:通过`gspread`库连接Google Sheets ```python # 示例:自动检测并加载最新数据 if IN_COLAB: !pip install -q gdown import gdown # 从Google Drive分享链接下载 url = 'https://drive.google.com/uc?id=YOUR_FILE_ID' output = 'dataset.zip' gdown.download(url, output, quiet=False) !unzip dataset.zip -d /content/data/ ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值