
爬虫
爬虫专用
爱吃鱼的小丽
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫基础四(ProxyHandler处理器)
ProxyHandler处理器(代理设置)很多网站会检测某一段时间某个IP的访问次数(通过流量统计,系统日志等),如果访问次数过多且不太寻常,IP会被浏览器禁止访问。所以通常采用一些代理器,每个一段时间换一个代理,就算IP被禁止,依然能换IP继续爬虫。urllib使用ProxyHandler来设置使用代理服务器代理的数据格式是字典常见的代理:西刺免费代理IP:http://www.x...原创 2020-04-21 20:38:48 · 421 阅读 · 0 评论 -
python3爬虫基础三(爬取js文件)
有时候我们要爬取的信息不是通过css文件编写而是在js文件中,所以我们之前的爬虫方法就无法爬取我们想要的信息现在我们以拉勾网为例,爬取js文件信息第一步打开拉勾网,搜索python页面如下:第二步,右键点击检查然后找到positionAjax.json文件,文件右侧就是我们要爬取的内容在浏览器中打开json.cn网页,将json文件右侧的内容全部复制到json.cn左侧,就可以看...原创 2020-04-18 17:04:45 · 4719 阅读 · 0 评论 -
python3爬虫基础二(urllib库)
urlib库urllib库是Python中的一个最基本的网络请求库。可以模拟 浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据。urlopen函数:在python3的urllib库中,所有和网络请求相关的方法,都被集到urllib.request模块下面,url的基本使用:from urllib import requestresp = request.urlope...原创 2020-04-18 16:16:07 · 480 阅读 · 0 评论 -
爬虫基础(一)
url详解URL是Uniform Resource Locator的简写,同意资源定位符一个URL由以下几部分组成:scheme://host:port/path/?query-string=xxx#anchor参数:scheme:代表访问的协议,一般为http或者https以及ftp等host:主机名,域名,比如www.baidu.comport:端口号,当你访问一个网站的时候...原创 2020-03-28 21:23:41 · 189 阅读 · 0 评论 -
小白学爬虫(八 scrapy实例)
部署是将这样的爬虫放在特定的服务器上,并且在服务器上配置好相关的接口scrapy genspider demo python123.ioCreated spider ‘demo’ using template ‘basic’ in module:python123demo.spiders.demo生成一个名为demo的爬虫修改demo.py文件实际中...原创 2020-03-26 08:52:49 · 207 阅读 · 0 评论 -
小白学爬虫(七 Scrapy)
已有实现,不需要用户编写需要用户编写原创 2020-03-25 10:54:07 · 140 阅读 · 0 评论 -
小白学爬虫(六 百度股票requests-BeautifulSoup-re)
由于百度股票网页版已经取消,所以已经爬不上了,但还是写出来了解一下代码思路功能描述目标:获取上交所和深交所所有股票的名称和交易信息输出:保存到文件中候选数据网站选择新浪股票:http://financc.sina.com.cn/stock/百度股票:https://gupiao.baidu.com/stock/选择标准:股票信息静态存在于HTML页面中,非js代码生成,没有Robot...原创 2020-03-24 18:43:13 · 253 阅读 · 0 评论 -
小白学爬虫(五 正则表达式)
正则表达式regular expression regex RE用来简洁表达一组字符串的表达式假设有一组字符串,‘PN’、‘PYN’,‘PYTN’,‘PYTHN’,‘PYTHON’,对其使用正则表达式:P(Y|YT|YTH|YTHO)?N‘PY’、‘PYY’、‘PYYY’、‘PYYYY’,正则表达式为:PY+PY开头存在不多于10个字符,且不含P和Y,PY[^PY]{0,10}正则表...原创 2020-03-23 20:20:40 · 993 阅读 · 0 评论 -
小白学爬虫(四 信息标记)
对信息进行标记,反应信息的含义一、信息标记标记后的信息形成信息组织结构,增加信息维度标记后的信息可用于通信、存储或展示标记的结构与信息一样具有重要价值标记后的信息更利于程序的理解和运用二、信息标记的种类XML:主要以标签为主,是基于HTML发展起来的通用信息表达形式三种格式:< name>内容< /name>< /name><...原创 2020-03-22 20:35:53 · 279 阅读 · 0 评论 -
小白学爬虫(三 Beautiful Soup库)
Beautiful Soup库是解析HTML页面信息标记与提取方法,解析、维护、遍历“标签树”的功能库。初步使用Beautiful Soup库from bs4 import BeautifuSoup#html为指定要解析的网页soup = BeautifulSoup(<p>html</p>, "html.parser")运行的结果是HTML页面的标签Beaut...原创 2020-03-21 20:32:53 · 217 阅读 · 0 评论 -
小白学爬虫(二 robots协议)
网络爬虫的限制对爬虫进行限制,避免爬到隐私文件,有两个方式:来源审查:判断User-Agent进行限制检查来访HTTP协议头的User-Agent域,只响应浏览器或者友好爬虫的访问发布公告: robots协议告知所有爬虫网站爬取的策略,要求爬虫遵守Robots协议Robots Exclusion Standard 网络爬虫排除标准作用: 网站告知网络爬虫哪些页面可以抓取,哪些不行...原创 2020-03-19 21:20:38 · 547 阅读 · 0 评论 -
小白学爬虫(一、requests类)
爬虫涉及到python的Requests库,下面说一下这个库Requests库安装打开命令行程序,pip install requestsRequest库的介绍Requests的使用首先涉及到requests的get方法,通过get()向服务器发出HTTP请求r = requests.get(url,param=None,kwargs)除了url其他两个参数可选**,返回的r为res...原创 2020-03-19 17:45:54 · 287 阅读 · 0 评论