
爬虫
梅花14
不曾清贫难成人
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫到底可以有多简单—python来告诉你
我们先来看看到底什么是爬虫网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。以上是百度百科的说法。在我看来其实可以更简单,人工访问网页—>代码程序访问。先来看一下人是如何访问网页的:以访问百度搜索首页为例那要是用代码进行访问呢?import requestscontent = requests.get("https://www.baidu原创 2020-06-22 11:33:41 · 559 阅读 · 0 评论 -
pyquery中关于nth-child(n)选取不到指定元素的问题
HTML示例代码html = "<div class="update_details"> <a href="xxxx">2019</a> <br> <br> <a href="xxxx">2020</a> </div>"我们想选取第二个a标签中的内容2020,你可能会这...原创 2020-03-18 03:41:21 · 1249 阅读 · 0 评论 -
python的requests库构造的爬虫即不报错也不继续爬取数据的问题
添加超时try: res = requests.get(url, timeout=5) # timeout单位是秒 text = res.text print(text)except Exception as e: print(e)原创 2020-03-17 21:10:40 · 959 阅读 · 0 评论 -
在scrapy中设置headers
现在的大部分网站都进行了反爬虫措施,比如知乎、猫眼和豆瓣等等。那么作为一个spider我们就要学会反反爬虫,而且这是反爬虫工程师和反反爬虫工程师之间的长期斗争,就像矛与盾谁更厉害一样。扯远了,下面介绍一种最简单最实用的反反爬虫措施,就是设置headers。方式一:在settings里面开启DEFAULT_REQUEST_HEADERS,根据需求设置相关内容即可,主要就是配置"User-Agen...原创 2019-09-28 13:17:03 · 4466 阅读 · 1 评论 -
win10下安装scrapy
采坑笔记听说scrapy在anaconda下安装只需要一条命令,于是老夫本着省事省力的态度在anaconda下去安装scrapy结果是真的悲催。最坑的不是安装失败了,是一切都正常结果在pycharm中配置解释器的过程中怎么都配置不好,还真不如在最开始的时候就安装失败呢,白浪费我时间去配置和找错误的原因,结果也没成功。最后还是不得以回到了在默认的python环境下安装scrapy。步骤如下:...原创 2019-09-28 01:28:33 · 808 阅读 · 0 评论 -
Python多进程爬去猫眼TOP100电影数据存入Mongodb数据库
需要准备的原材料:Mongodb数据库,去官网下载安装包,最新版本的数据库支持一键式安装不用配置启动服务了pyquery库 pip install pyquerypymongo库 pip install pymongorequests库 pip install requests代码分析1、导入需要的库import requestsfrom pyquery impor...原创 2019-09-19 11:17:59 · 604 阅读 · 0 评论 -
多进程爬取Unsplash网站图片
官网链接:https://unsplash.com/"""下载Unsplash的手机照片"""import requestsfrom bs4 import BeautifulSoup as bsfrom concurrent import futuressum_num = 0def get_img_urls_download(page_num): try: ...原创 2019-06-29 14:59:15 · 640 阅读 · 0 评论 -
多进程爬虫爬取中关村在线壁纸(速度相当快)
"中关村在线图片,汽车类的,http://desk.zol.com.cn/qiche/1.html"import requestsfrom bs4 import BeautifulSoup as bsfrom concurrent import futuresimgnum = 0base_url = "http://desk.zol.com.cn/bizhi"def get_pa...原创 2019-06-29 00:42:07 · 491 阅读 · 0 评论 -
python 爬虫 爬取json格式数据 简单实例
这里以爬取搜狗壁纸的图片的url为例,废话不多说,直接上代码import requestsurl = "https://pic.sogou.com/pics?query=%C3%A8&mode=1&start=48&reqType=ajax&reqFrom=result&tn=0"res = requests.get(url).json() #...原创 2019-06-28 14:08:14 · 5749 阅读 · 0 评论 -
网络爬虫之requests的get方法笔记
我们以新浪微博为测试对象import requestsurl = "https://weibo.com/"res = requests.get(url)返回网页内内容text = res.text #类型为字符串con = res.content #类型为二进制字节流返回头部信息header = res.headers type(header)# requests.s...原创 2019-04-10 14:18:47 · 592 阅读 · 0 评论 -
怎么使用爬虫下载文件—requests的get方法(Python)
主要以下载图片和PDF文件为样例图片方法一:这种方法不适合下载大文件import requestsurl = "https://ps.ssl.qhimg.com/dmfd/420_627_/t01a4ad20545ed7aabe.jpg"img = requests.get(url).content #这里必须用.content而不能用textwith open("meizi....原创 2019-04-10 13:27:07 · 4558 阅读 · 0 评论 -
我的第一个爬虫——豆瓣的TOP250爬虫源码
爬取豆瓣的TOP250实验环境为anacondafrom pyquery import PyQuery as pq #使用pyquery库import requestsdef get_page(pages): #获取网页源码 url = "https://movie.douban.com/top250" pages = pages*25 params ...原创 2019-02-11 18:25:07 · 914 阅读 · 0 评论 -
爬取数据并写入Excel表格——猫眼电影的爬取
from bs4 import BeautifulSoupimport requestsimport xlwtimport osdef get_page(pages): offset = pages*10 url = "https://maoyan.com/board/4?offset=" + str(offset) headers = { "Us...原创 2019-02-15 16:22:35 · 1951 阅读 · 0 评论 -
PyQuery的不详细解释
写在前面用了两天的PyQuery来做爬虫,但对这个库还是云里雾里的,今天特意抽空总结一下,下面可以先看他的源码。这里贴出网址:https://github.com/gawel/pyquery/其实我们用这个库,常用的方法也就那几个,我也是简单总结一下最常用的方法的用法。html = '''<div id="container"> <ul class="list"...原创 2019-01-20 21:45:03 · 224 阅读 · 0 评论