
爬虫
小灵子2050
这个作者很懒,什么都没留下…
展开
-
深入理解BeautifulSoup
我生也有涯,而知也无涯,以有涯随无涯,殆矣!——庄子如同Python的所有库一样,BeautifulSoup易于上手,想要如臂使指却要下一番功夫。我们不妨通过一个例子来细细品味几个有趣的细节,来看看我们是否真的了解了BeautifulSoup。初识——BeautifulSoup通过将html文档解析成文档搜索树来实现高效搜索BeautifulSoup总结下来两种搜索文档树的方法最重要:...原创 2019-12-18 16:36:04 · 610 阅读 · 0 评论 -
Python最简单的爬虫脚本
正则表达式、lxml、BeautifulSoup统统都用不上状况也是存在的,如果响应类型是json的话。试着顺下面代码的思路对照下豆瓣电影的 request——response互动"""topic:豆瓣是异步加载的,更神奇的是response的内容是json,我试着抓取author:小灵子date:2019-6-4"""import requestsimport timedef...原创 2019-06-04 20:42:30 · 11584 阅读 · 0 评论 -
scrapy爬取漫画
项目提要主要知识点scrapy中设置代理IPscrapy架构中从一个组件向另一组件传递特定信息,譬如本文所说的目录名settings文件需要处理的事项爬虫目标网上有一部漫画挺好看,手机浏览总是需要刷新浏览器——不友好啊,干脆我们把它爬取并存储到本地,即使以后收费了我们照样看。这部漫画叫《一人之下》使用框架scrapy工作流程分析网页我们可以看见从章节目录页爬取章节U...原创 2019-06-30 17:30:49 · 2866 阅读 · 0 评论