Mr_7ove-优快云博客

原创 scrapy-redis分布式爬虫总结

一、redis相关全称为remote dictionary server。国内使用到的公司也很多。其关键字可以归纳为：1.开源并以实际应用驱动。2.key-value这种KV特性将其与关系型数据库本质的区别开来。这也是redis流行的关键因素所在。3.内存数据库这种将数据存储在内存中是redis性能（主要针对存取速度）优于硬盘数据库的根本。为了便于数据长久保存，其也支持持久化...

2019-09-21 14:58:49 426

原创 BeautifulSoup4

Beautiful Soup常用的方法和属性1.find_all() 方法：find_all()方法搜索当前tag的所有符合过滤条件的tag子节点。在搜索子节点的时候，我们不仅可以制定要搜索的子节点的标签名，还可以添加过滤条件，更精确的选择我们需要的子节点2.find() 方法：find()方法和find_all()方法的参数和用法几乎一样，只不过find()方法只选取符合条件的第一...

2019-09-10 20:22:26 211

原创 request

1. requestsrequests是基于urllib的再一次封装，具有urllib的一切特性，并且API调用更加方便，一个基于网络请求的模块，模拟浏览器发起请求2.为什么使用requests模块？1.自动处理url编码2.自动处理post请求参数3.简化cookie和代理的操作cookie的操作：创建一个cookiejar对象创建一个handler对象创建一个opene...

2019-09-09 20:16:56 259

原创 xpath

一、xpath介绍XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。XPath 使用路径表达式在 XML 文档中进行导航XPath 包含一个标准函数库XPath 是 XSLT 中的主要元素XPath 是一个 W3C 标准节点在 XPath 中，有七种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档（根）节点...

2019-09-09 19:59:36 154

原创总结

什么是爬虫网络爬虫？是一种按照一定的规则，自动抓取万维网信息的程序或者脚本爬虫的用途？搜索引擎咨询新闻网站购物助手(慧慧购物)数据分析与研究积累原始数据资源抢票软件等爬虫的分类？通用爬虫(搜索引擎抓取系统(百度、谷歌、雅虎等)的重要组成部分,主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份)第一步：搜索引擎爬虫抓取网页流程1.首先选取一部分的种子URL，将...

2019-09-09 08:49:42 161

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 scrapy-redis分布式爬虫总结

原创 BeautifulSoup4

原创 request

原创 xpath

原创 总结

空空如也

空空如也

原创总结