《Web Scraping with Python》读书笔记

本书《WebScrapingwithPython》为2015年6月出版的英文版,专为Python爬虫爱好者设计。内容涵盖了基础HTML知识、网页通信库urllib/urllib2、页面解析库BeautifulSoup、异常处理、正则表达式、Lambda表达式等。书中重点讨论了爬虫的关键问题如去重、代码灵活性、Scrapy使用、API调用、数据存储与读取、爬虫测试等。高级部分涉及语言处理、数据清洗、登陆爬取、表格与JavaScript处理等。书中AdditionalResources提供了深入学习资源。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

《Web Scraping with Python》 – Ryan Mitchell
2015年6月英文第一版,是我看到的第一本专门介绍python爬虫的书籍。

本文并不记录详细的实验记录,事实上我也并没有花时间这样做–时间有限。简要记录该书的主要内容和思路。

基础部分

首先介绍了基础的HTML知识(详情可参考《图解HTTP》),python进行web通信的基本库urllib/urllib2,和页面解析用的BeautifulSoup库(很方便,但据说效率不如Xpath),异常处理,还涉及正则表达式、Lambda表达式。
有价值的部分来了
爬虫爬取时候的递归次数如果不加限制,终将崩溃,另一方面带宽资源也相当宝贵。介绍了爬取整个网站,甚至从整个Internet获取数据(最重要的区别是前者不获取外链)时的关键问题-去重,爬虫代码的灵活性也很重要。书中还对Scrapy的用法进行了简要介绍,和官方文档相比,直接给出了Logging和多个持久化的例子(json,csv,xml)。
API方面通过一些例子说明如何发请求、解析响应。在一些鉴权要求高的网站,发送请求时需要带上HTTP HEAD(第12章)。
Echo Nest是爬虫技术应用的典范,高度智能化的信息抓取。介绍了Twitter和Google的APIs。
详细介绍了爬取到的数据的存储问题,,涉及csv和mysql。另一方面,介绍文本数据读取问题(顺便把文本编码问题捋了捋),读取CSV文件,PDF/.docx(吐槽的很对)。

高级部分

目前知晓的部分有语言处理-NLTK库,爬虫测试unit test 和Selenuim库。
作者讨论了数据清洗,登陆爬取,爬取表格、JavaScript,图片处理和文本识别,避免爬虫陷阱,远程爬取(远程服务器爬取,Tor,远程Hosting)等主题,这些内容都可以单独研究,本次读书主要学习了基础部分。
值得注意的是,书中的Additional Resources还是很有价值的,毕竟篇幅有限,作者还是很厚道的给出了深入学习的资源。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值