
爬虫项目
文章平均质量分 55
Ethan奕诚
偷偷学习,拉开距离
展开
-
python爬虫训练项目5-豆瓣电影Top250(多线程)
之前和大家分享过豆瓣电影Top250的爬取教程,该教程没有涉及到多线程,爬取的速度稍微会慢一些。 python爬虫训练项目2-豆瓣电影Top250(适合初学者)_Ethan奕诚-优快云博客 今天为大家带来了升级版-采取多线程的方式进行爬取,主要是通过 “线程池 ”实现,更改一处即可实现,大家可以翻阅我之前的豆瓣爬虫那篇文章查看源码: Before: if __name__ == '__main__': start = time.time() # 设置爬取页数 for...原创 2021-11-28 11:13:29 · 1328 阅读 · 0 评论 -
python爬虫训练项目2-豆瓣电影Top250(适合初学者)
尝试对豆瓣电影Top250进行爬虫训练,整体爬虫思路如下: 1.对网页进行请求(豆瓣电影Top250为get请求,用requests.get) 2.对网页内容进行解析(正则表达式或Beautifulsoup) 3.对解析的数据进行保存(pandas或xlwt) 此次用Beautifulsoup解析,xlwt写入数据并保存,Beautifulsoup相对于正则表达式能比较容易的解析想要的网页内容,对新手友好;pandas也可以写入数据并做保存,pandas最合适的场景应该是数据处理,所以这里就不大材小原创 2021-10-24 20:18:10 · 3357 阅读 · 0 评论 -
python爬虫训练项目1-当当网top500(适合初学者)
这是笔者自己第一次尝试python爬虫,整体框架很早之前就完成了,但一直因为卡在“解析不出来”的困境导致拖了好几天,不过终于在今天茅塞顿开般的解决了。 爬虫基本思路: 1.用谷歌F12先了解网站的请求方式 2.对网页进行请求(requests) 3.将返回的数据进行正则表达式解析 4.对解析出的数据进行汇总处理并存储到文件中 期间遇到的坑 1.正则表达式 前期做的正则表达式解析时,我是直接复制了该网站的网页元素进行尝试解析,但到后面整体运行时一直没解析出来;后面我发现,requests返回的原创 2021-10-16 21:06:31 · 649 阅读 · 0 评论 -
python爬虫训练项目4-采取多线程爬取
多线程python爬虫下载图片原创 2021-11-23 23:32:57 · 176 阅读 · 0 评论