
爬虫
文章平均质量分 62
blackeagleoht
本博客仅记录学习过程
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫学习记录 ----持续更新
本博文主要记录一些在学习爬虫过程遇到的一些小技巧========================================================================================================================1、用chrome查看审查元素以"豆瓣电影 Top 250"网页为例,网址:https://movie.d...原创 2018-10-23 16:54:22 · 288 阅读 · 0 评论 -
python抓取豆瓣电影top250信息
1、本博文中代码是转载内容,原文章地址如下:https://blog.youkuaiyun.com/submit66/article/details/78631342?utm_source=blogxgwz12、只是在原文代码的基础上稍作修改,添加了一些注释及无关紧要的代码3、本篇博文涉及知识点如下:①创建类、创建函数②创建新线程③用浏览器检查网页元素④使用BeautifulSoup获取网页内...原创 2018-10-24 18:44:10 · 480 阅读 · 0 评论 -
python爬取淘宝搜索页(练习)
1、本博文中代码是转载内容,原文章地址如下:https://segmentfault.com/a/11900000146882162、原作者讲解的很详细,我只是在原文代码的基础上稍作修改,添加了一些注释及无关紧要的代码3、本篇博文涉及知识点如下:①通过对比页面构造爬取网址#python3.6import reimport requestsfrom datetime import d...原创 2018-10-31 20:55:42 · 905 阅读 · 0 评论 -
爬虫框架Scrapy的学习记录
本次实验以爬取美剧天堂最近更新页面的美剧名字为目的 https://www.meijutt.com/new100.html1、环境Centos7 x64python2或者python3(本次实验用python3版本)virtualenvwrapper 虚拟环境2、安装Scrapymkvirtualenv learnScrapypython3 --python=python3 #创建...原创 2018-12-26 16:49:31 · 612 阅读 · 2 评论 -
Python3 获取用于爬虫的有效代理ip
参考链接 https://www.cnblogs.com/TurboWay/p/8172246.html原文讲的很详细,本文只是根据自己的理解,稍作修改1、概要从西刺免费代理IP网站获取可用ip地址并保存为txt格式的本地文件,以便其他爬虫程序调用。如下图所示,获取“国内高匿代理”、“国内普通代理”、“国内HTTPS代理”、“国内HTTP代理”四种代理的ip地址和端口,并验证ip:端口是否...原创 2018-12-17 19:58:18 · 986 阅读 · 0 评论 -
python3 爬取糗事百科文章id
前言本文仅记录一次学习爬虫的实验过程糗事百科是一个发布糗事笑话的网站,用户不用登录账号就可以访问。1、分析糗事百科网站1.1 观察打开糗百首页 https://www.qiushibaike.com/, 可看到有“热门”、“24小时”、“热图”、“文字”、“穿越”、“糗图”、“新鲜”等几个分类,点开某个分类,只能显示13页的文章,而本次实验是要爬取尽可能多的文章,显然这样不符合本次需求。...原创 2018-12-18 20:36:03 · 298 阅读 · 0 评论 -
解决被西刺代理封ip的问题
网上有很多讲 用 Python 爬取代理 ip 的文章,如此的文章一搜就有一堆,我自个按照相关的教程尝试了下,确实能够抓取到很多 ip。不过在把 ip 保存到本地文件的过程中,由于保存的格式不美观,我尝试修改代码以改变保存格式,因为在爬取的时候只设置了 Use-Agent,没有设置 proxy,所以在多次运行爬虫脚本后,最后成功被西刺代理网站封掉了我真实的 ip。这下再也不能访问西刺代理的网站了…...原创 2019-04-29 11:07:28 · 6936 阅读 · 10 评论