数据收集与清洗全解析
1. 数据收集方法
数据收集是数据分析的基础,以下介绍几种常见的数据收集方法。
- 众包 :当处理文件混乱或扫描数据噪声大,清理时间过长时,可考虑众包。像 Amazon Turk 和 CrowdFlower 这样的众包平台,能让你付费雇佣大量人员帮你提取甚至收集数据。例如,图像标注、调查回答等需要人工标注的任务,很适合使用远程工作者完成。许多优秀的开放数据资源,如 Wikipedia、Freebase 和 IMDb,都是由贡献者团队构建的,但通常付费能让人们工作得更好。
- 网页抓取 :网页包含有价值的文本和数值数据,抓取网页数据可分为两个步骤:
- 蜘蛛爬行(Spidering) :下载用于分析的正确页面集。传统的抓取程序是特定网站的脚本,用于查找感兴趣内容周围的特定 HTML 模式,但这类脚本易因网站页面结构变化而失效。如今,Python 的 BeautifulSoup 等库让编写健壮的蜘蛛和抓取器变得更容易,而且可能已有他人为流行网站编写了相关程序,可在 SourceForge 或 Github 上搜索。蜘蛛爬行任务有不同难度,简单的如定期访问单个 URL,复杂的如网页爬行,即从给定根页面系统地遍历所有出站链接,递归访问目标网站的每个页面,就像 Google 索引网页那样。不过,抓取时要注意礼貌,避免每秒多次访问网站,同时要遵守网站的服务条款,曾有知名互联网人物因违反条款抓取期刊文章而面临严重刑事指控。
- 数据提取(Scraping) :从每个页面中提取内容,为计算分析做准备。通过调用模拟浏览器的函数
超级会员免费看
订阅专栏 解锁全文
9864

被折叠的 条评论
为什么被折叠?



