- 博客(5)
- 收藏
- 关注
原创 scrapy-redis分布式爬虫总结
一、redis相关全称为remote dictionary server。国内使用到的公司也很多。其关键字可以归纳为:1.开源并以实际应用驱动。2.key-value这种KV特性将其与关系型数据库本质的区别开来。这也是redis流行的关键因素所在。3.内存数据库这种将数据存储在内存中是redis性能(主要针对存取速度)优于硬盘数据库的根本。为了便于数据长久保存,其也支持持久化...
2019-09-21 14:58:49
426
原创 BeautifulSoup4
Beautiful Soup常用的方法和属性1.find_all() 方法:find_all()方法搜索当前tag的所有符合过滤条件的tag子节点。在搜索子节点的时候,我们不仅可以制定要搜索的子节点的标签名,还可以添加过滤条件,更精确的选择我们需要的子节点2.find() 方法:find()方法和find_all()方法的参数和用法几乎一样,只不过find()方法只选取符合条件的第一...
2019-09-10 20:22:26
211
原创 request
1. requestsrequests是基于urllib的再一次封装,具有urllib的一切特性,并且API调用更加方便,一个基于网络请求的模块,模拟浏览器发起请求2.为什么使用requests模块?1.自动处理url编码2.自动处理post请求参数3.简化cookie和代理的操作cookie的操作:创建一个cookiejar对象创建一个handler对象创建一个opene...
2019-09-09 20:16:56
259
原创 xpath
一、xpath介绍XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。XPath 使用路径表达式在 XML 文档中进行导航XPath 包含一个标准函数库XPath 是 XSLT 中的主要元素XPath 是一个 W3C 标准节点在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点...
2019-09-09 19:59:36
154
原创 总结
什么是爬虫网络爬虫?是一种按照一定的规则,自动抓取万维网信息的程序或者脚本爬虫的用途?搜索引擎咨询新闻网站购物助手(慧慧购物)数据分析与研究积累原始数据资源抢票软件等爬虫的分类?通用爬虫(搜索引擎抓取系统(百度、谷歌、雅虎等)的重要组成部分,主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份)第一步:搜索引擎爬虫抓取网页流程1.首先选取一部分的种子URL,将...
2019-09-09 08:49:42
161
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅