停止从 Kaggle 下载数据集(如果你不是初学者)

本文建议数据科学家避免仅使用Kaggle数据集,而应通过网络抓取或API构建自己的独特数据集。介绍了三个步骤:选择主题并构建数据集,定义要解决的问题,以及列出所需的技能。网络抓取被强调为创造个性化项目的一种方式,通过Python库如Selenium实现。最后,鼓励将项目见解以文章形式公开分享,以提升沟通技巧和项目可见性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

任何学习数据科学的人访问量最大的网站之一是 Kaggle。Kaggle 有各种各样的数据集,从口罩检测到辛普森一家的所有剧集,但在项目中使用它们之前应该三思而后行。

Kaggle 数据集有利于学习数据科学,但是当涉及到您计划在简历中包含的项目时,仅使用此类数据集并不是一个好的选择。为什么?很简单,招聘人员一遍又一遍地在简历中看到这样的项目。

和你一样,许多数据科学爱好者下载 Kaggle 数据集来启动项目。如果你想脱颖而出,你应该停止从 Kaggle 下载数据集,并在开始一个新项目之前按照以下步骤操作。

第 1 步:考虑一个您喜欢的主题并使用网络抓取(或 API)构建您自己的数据集

如何开始一个很少有人从事过的独特项目?建立自己的数据集!

Kaggle 数据集已被许多人下载,甚至在数百个教程和指南中使用。这就是为什么 Kaggle 不会帮助你建立一个好的投资组合,因为招聘人员已经多次看到具有此类数据集的项目。相比之下,如果您想到自己喜欢的主题并构建自己的数据集,则从其他数据科学家中脱颖而出的机会会更高。

创建唯一数据集的一种方法是使用网络抓取。这是一种用于从网站提取数据的技术。这意味着您可以将 Web 数据放入 CSV 文件中,以后可以在数据科学项目中使用该文件。这是一个关于如何使用 Python 的库 Selenium 抓取网站的教程。当然,首先你应该看看网站是否有API。如果是这样,您可以提取所有数据而无需从头开始创建网络爬虫,而只需发送请求。

以下是创建唯一数据集的步骤。

想一个你喜欢的话题
访问具有您想要的部分或全部数据的不同网站
选择最好的网络抓取库来抓取该数据。如果数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

知识大胖

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值