爬虫_自由自在的鱼丶的博客-优快云博客

爬虫

利用爬虫算法，爬取需要的信息

文章数：13 文章阅读量：21777 文章收藏量：122

作者: 自由自在的鱼丶

咕噜咕噜

展开

爬虫（13）-爬虫爬取CVPR+ICCV+ECCV期刊论文自动下载PDF保存文件中（科研党福利）

文章目录1.分析网页2.分析ECCV期刊页面3.爬取ECCV期刊代码4.爬取ICCV期刊代码5.爬取CVPR期刊代码6.结果展示最近导师叫我下载CVPR，ICCV，ECCV会议论文，发现每个期刊都有好几百篇论文。一个一个点击非常耗费时间，正好在学习爬虫，利用爬虫抓取一下网页。完成老师分配的任务之后将这个代码分享出来，供大家使用和学习，解决下载论文的烦恼。毕竟科技的进步就是使人懒惰，哈哈哈运行速度和每个人的网速有关，可以先在浏览器中下载一个论文，测一下网速，网速慢的话建议搭载VPN，也有部分论文内存很大

原创 2020-10-29 11:12:01 · 3053 阅读 · 4 评论
爬虫（12）-爬虫爬取安居客二手房和新房信息

文章目录1.页面分析2.代码3.结果展示本文主要讲解爬取安居客买房类别中的二手房和新房，将提取的信息存储在记事本中，也可以转存CSV格式或者MongoDB中。网站HTML信息提取比较简单，没有什么特别的地方，作为爬虫入门可以让初学者快速了解爬虫方法。认为有用的话请点赞，码字不易，谢谢。其他爬虫实战请查看：https://blog.youkuaiyun.com/qq_42754919/category_10354544.html1.页面分析我们从网站的主页面开始提取网站信息，一直到最后具体的房产信息。以二手

原创 2020-10-22 19:35:39 · 2368 阅读 · 3 评论
爬虫（11）-爬虫爬取天天基金网基金排行

文章目录1.网址分析2.网页信息分析3.代码4.结果展示优快云上大部分爬取天天基金的博客都失效或者无法有效爬取信息，本文可以有效抓取网页上的信息。认为有用的话请点赞，码字不易，谢谢。其他爬虫实战请查看：添加链接描述本文以天天基金网为例，爬取网站上的基金排行并存储在本地记事本中和MongoDB数据库中。网址：http://fund.eastmoney.com/data/fundranking.html#tall;c0;r;szzf;pn501.网址分析打开网页我们看到每页最多显示50个基金信息

原创 2020-10-15 15:58:12 · 2676 阅读 · 7 评论
爬虫（10）-爬虫以json，csv和txt方式存储文件

文章目录1.json存储/读取文件2.csv存储/读取文件3.txt存储/读取文件本文介绍了爬虫中使用存储文件格式为json,csv和txt形式，此外还介绍如何从这个形式中读取文件。其他爬虫实战请查看：https://blog.youkuaiyun.com/qq_42754919/category_10354544.html觉得有用请点赞，谢谢。1.json存储/读取文件import json,csvdata=[{'name':'li','age':'18'}]with open('data.json',

原创 2020-10-14 10:08:35 · 403 阅读 · 1 评论
爬虫（8）-Scrapy爬取微博用户粉丝，关注和微博内容

本文主要讲解使用scrapy爬取微博用户的关注，粉丝和微博内容。文章目录1.页面分析1.1 用户信息1.2 关注页面1.3 粉丝页面2.代码2.1 items.py2.2 weibocn.py2.3 pipelines.py2.4 settings.py1.页面分析爬取微博URL：http://m.weibo.cn/。打开网址需要登录账号，因此我们在爬取网站时，需要输入cookie。在网页中我们随便选取一个用户的信息，点击头像，进入主页面进行分析。1.1 用户信息我们在主页面随便搜索一个用户的I

原创 2020-10-10 10:09:38 · 1943 阅读 · 4 评论
爬虫（9）-python爬虫爬取电子书存储在txt文件中

文章目录1.分析主页面2.分析电子书主页面3.分析正文界面4.存储5.全部代码+解析6结果展示7.总结本文以笔趣阁网站为例，爬取网站上的电子书并存储在本地记事本中。网站地址：https://www.biqukan.com/认为有用的话请点赞，码字不易，谢谢。1.分析主页面打开网址，F12查看网页源代码，我们发现四部比较火的电子书的节点属性是< hot >,本文主要爬取四部比较火的电子书。我们从class=item节点提取电子书的地址，源代码给的URL需要加上原始代码。 it

原创 2020-10-13 16:34:12 · 3342 阅读 · 1 评论
爬虫（7）-Scrapy入门案例

1.创建项目1.1 打开文件夹使用任务管理器，打开需要的文件夹下创建创建项目cd 文件夹名称1.2创建项目scrapy startproject tutorial(这个是我们创建项目的文件名称)1.3 创建Spider我们需要打开刚才创建的项目文件夹，在里面创建spidercd tutorial#quotes是我们创建的一个py文件，在里面执行爬取操作。#quotes.toscrape.com表示我们爬取的网站。#这两个部分可以自定义scrapy genspider quotes

原创 2020-10-06 16:14:13 · 277 阅读 · 1 评论
爬虫（6）-使用selenium爬取淘宝天猫商品信息（价格，销售量等）

在学习本节时，发现在淘宝页面搜索需要登录账号密码，因此就选择天猫网页进行爬取，但是只能爬取第一页，之后的页面也要登录账号。（京东页面搜索下一页不要登录账号，有时间做一个爬取京东页面商品信息）1.准备工作天猫搜索页面的URL，以及关键字https://list.tmall.com/search_product.htm?q=q后面就是我们需要搜索的商品名称，可以使用quote函数输入keyword,也可以使用send_keys传入到输入框，本文使用第二种方法.url='https://list.tma

原创 2020-09-25 11:16:09 · 3980 阅读 · 4 评论
爬虫（5）-设置代理

三种设置代理的方式和方法文章目录1.使用urllib2.使用requests3.使用selenium1.使用urllibfrom urllib.request import ProxyHandler,build_openerproxy='代理IP'proxy_handler=ProxyHandler({ 'http':'http://'+proxy, 'https':'https://'+proxy})opener=build_opener(proxy_handler)re

原创 2020-09-15 15:28:50 · 193 阅读 · 0 评论
爬虫（2）-解析库xpath和beautifulsoup爬取猫眼电影排行榜前100部电影

爬取猫眼电影前100部电影具体的网址链接我放在正则化表达式中，大家可以去查看,还包括写入文本的操作，以及获取100部电影的方式。这次主要介绍使用解析库爬取猫眼电影排行榜前100部电影。正则化文章目录爬取猫眼电影前100部电影1.1xpath解析库1.2xpath解析库代码2. beautifulsoup解析库1.1xpath解析库首先我们需要使用etree函数对request请求获取的HTML文本进行初始化，之后我们就可以调用xpath函数获取信息html=etree.HTML(response

原创 2020-09-04 21:12:32 · 983 阅读 · 0 评论
爬虫（1）-正则化表达式爬取猫眼电影排行榜前100部电影

爬取猫眼电影排行榜前100部电影网站地址https://maoyan.com/board/4?offset=本方法主要只用requests库对网站信息抓取。1.抓取首页我们将网址URL使用requests打开，获取HTML文本代码,输入自己电脑中的浏览器的代理headers。使用status_code是否等于200判断网站是否打开。最后返回html文本.def gethtml(url): headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; W

原创 2020-09-02 21:34:20 · 826 阅读 · 0 评论
爬虫（4）-使用Ajax爬取今日头条表情包图片

爬取今日头条表情包图片1.获取信息通过F12打开页面信息，在网络选项卡中选择XHR类型，通过下拉网页，网络选项卡中增加文件数量，这就是我们需要爬取的ajax文件。点击一个文件获取我们需要的GET网址信息。我们发现除了offset参数发生改变，其他的参数不变，因此改变offset参数可以爬取更多的信息。（最后面的几个信息可以忽略不计）我们打开response响应信息，所有的页面信息都在data节点中，在data节点中包含0-18个信息，但是有些信息是误导信息，不在页面中显示，因此我们需要剔除这些误

原创 2020-09-09 16:21:51 · 1038 阅读 · 0 评论
爬虫（3）-使用Ajax爬取微博信息

使用Ajax爬取微博信息我们发现有些网页上的信息，在HTML代码中无法查询到。网页上的信息都是通过Ajax渲染加载出来的。本文以崔老师微博为例，讲解使用Ajax爬取微博信息。查找Ajax请求F12 查看网络属性，选择XHR类型，我们发现有3个文件。当我们向下滑动页面，微博信息继续加载，此时网络中问价数量增加。第二个文件是微博主页信息，从第三个文件开始，都是微博正文内容。点击任意文件在请求头中发现浏览器代理以及Ajax请求信息。此外我们还要记录GET类型的请求https://m.weibo.

原创 2020-09-08 11:31:39 · 698 阅读 · 3 评论

爬虫

作者: 自由自在的鱼丶

爬虫（13）-爬虫爬取CVPR+ICCV+ECCV期刊论文自动下载PDF保存文件中（科研党福利）

爬虫（12）-爬虫爬取安居客二手房和新房信息

爬虫（11）-爬虫爬取天天基金网基金排行

爬虫（10）-爬虫以json，csv和txt方式存储文件

爬虫（8）-Scrapy爬取微博用户粉丝，关注和微博内容

爬虫（9）-python爬虫爬取电子书存储在txt文件中

爬虫（7）-Scrapy入门案例

爬虫（6）-使用selenium爬取淘宝天猫商品信息（价格，销售量等）

爬虫（5）-设置代理

爬虫（2）-解析库xpath和beautifulsoup爬取猫眼电影排行榜前100部电影

爬虫（1）-正则化表达式爬取猫眼电影排行榜前100部电影

爬虫（4）-使用Ajax爬取今日头条表情包图片

爬虫（3）-使用Ajax爬取微博信息