
爬虫技术
文章平均质量分 92
yzhua_777
这个作者很懒,什么都没留下…
展开
-
爬虫(3)之ip代理
为什么ip会被封? 当我们爬取一些网站时,会发现ip被封了。这是因为网站为了防止被爬取,会有反爬机制,对于同一个ip地址的大量同类型的访问,会封锁ip,过一段时间后才能继续访问 如何解决ip被封的问题? 有几种方法: 1.修改请求头,模拟浏览器(不是代码去直接访问)访问 2.使用代理ip并轮换 3.设置访问时间间隔 如何获取代理ip地址 从该网站获取:https://www.xicidaili....原创 2020-04-25 17:54:03 · 492 阅读 · 0 评论 -
爬虫(2)之re 爬取淘宝网
我们通过requests可以很轻松地就获得网页上的所有内容,但是这些内容往往会夹杂着许多我们不需要的东西,因此我们需要解析和提取 HTML 数据。 在先前介绍过的解析和提取html内容的库,只能够处理静态文本执行简单的搜索,缺乏灵活性,不能处理动态的文本信息。 下面来介绍一下正则表达式。 什么是正则表达式? 正则表达式是用来简洁表达一组字符串的表达式 正则表达式是一种通用的字符串表达框架 正则表...原创 2020-04-24 22:05:48 · 2381 阅读 · 0 评论 -
爬虫(2)之 Xpath(爬取丁香园)
Xpath常用的路径表达式: XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。 在XPath中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点。 XML文档是被作为节点树来对待的。 XPath使用路径表达式在XML文档中选取节点。节点是通过沿着路径选取的。下面列出了最常用的路径表达式: node...原创 2020-04-24 21:51:41 · 464 阅读 · 0 评论 -
爬虫(2)之Beautiful Soup库
学习Beautiful Soup库 Beautiful Soup库的理解: Beautiful Soup库是解析、遍历、维护“标签树”的功能库,对应一个HTML/XML文档的全部内容。虽然用Beautiful Soup库解析html简单,但是其匹配效率不高。 BeautifulSoup类的基本元素: Tag 标签,最基本的信息组织单元,分别用<>和</>标明开头和...原创 2020-04-23 23:49:53 · 284 阅读 · 0 评论 -
爬虫技术知多少
一、爬取python之禅 了解一个网络爬虫程序的最普遍的过程: 1.访问站点 2.找到需要的信息,并且定位好 3.获得信息后,进行处理 show the code import requests url = 'https://www.python.org/dev/peps/pep-0020/' res = requests.get(url) text = res.text text 看一下结果 ...原创 2020-04-21 22:43:49 · 419 阅读 · 0 评论