9、数据收集与清理全解析-优快云博客

本文链接：https://blog.youkuaiyun.com/vulkan6gpu/article/details/154983324

数据收集与清理全解析

1. 数据收集方法

在数据收集过程中，有多种途径可供选择，每种方法都有其特点和适用场景。

1.1 众包数据收集

处理文件杂乱或扫描数据噪声大等问题时，众包是一个不错的选择。像 Amazon Turk 和 CrowdFlower 这样的众包平台，能让你付费雇佣大量人员帮忙提取甚至收集数据。对于需要人工标注的任务，如图片标注或问卷调查，远程工作者能发挥很好的作用。许多优秀的开放数据资源，如 Wikipedia、Freebase 和 IMDb，都是由众多贡献者共同构建的。不过要记住，通常付费能让人们工作得更出色。

1.2 网页数据抓取

网页往往包含有价值的文本和数值数据。例如，在构建jai - alai体育博彩系统时，需要从相关网站获取昨日比赛结果和今日赛程。网页数据抓取分为两个步骤：
- 蜘蛛爬行（Spidering） ：下载用于分析的合适页面集合。可以通过调用模拟浏览器的函数，让程序下载并解析网页内容。传统的蜘蛛程序是针对特定网站编写的脚本，利用网站页面格式的可预测性来查找目标内容，但这类脚本容易因网站结构变化而失效。如今，Python 的 BeautifulSoup 等库让编写健壮的蜘蛛和抓取程序变得更简单，而且很多流行网站可能已有他人编写好的程序可供使用。蜘蛛爬行任务有不同难度级别，简单的如定时访问单个 URL，稍复杂的基于 URL 名称规律进行迭代，最复杂的是网页爬行，像 Google 索引网页那样系统地遍历网站的所有页面。不过，在进行蜘蛛爬行和网页抓取时，要注意礼貌，避免过于频繁地访问网站，同时要遵守网站的服务条款。
- 数据提取