自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 scrapy-redis分布式爬虫总结

一、redis相关全称为remote dictionary server。国内使用到的公司也很多。其关键字可以归纳为:1.开源并以实际应用驱动。2.key-value这种KV特性将其与关系型数据库本质的区别开来。这也是redis流行的关键因素所在。3.内存数据库这种将数据存储在内存中是redis性能(主要针对存取速度)优于硬盘数据库的根本。为了便于数据长久保存,其也支持持久化...

2019-09-21 14:58:49 426

原创 BeautifulSoup4

Beautiful Soup常用的方法和属性1.find_all() 方法:find_all()方法搜索当前tag的所有符合过滤条件的tag子节点。在搜索子节点的时候,我们不仅可以制定要搜索的子节点的标签名,还可以添加过滤条件,更精确的选择我们需要的子节点2.find() 方法:find()方法和find_all()方法的参数和用法几乎一样,只不过find()方法只选取符合条件的第一...

2019-09-10 20:22:26 211

原创 request

1. requestsrequests是基于urllib的再一次封装,具有urllib的一切特性,并且API调用更加方便,一个基于网络请求的模块,模拟浏览器发起请求2.为什么使用requests模块?1.自动处理url编码2.自动处理post请求参数3.简化cookie和代理的操作cookie的操作:创建一个cookiejar对象创建一个handler对象创建一个opene...

2019-09-09 20:16:56 259

原创 xpath

一、xpath介绍XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。XPath 使用路径表达式在 XML 文档中进行导航XPath 包含一个标准函数库XPath 是 XSLT 中的主要元素XPath 是一个 W3C 标准节点在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点...

2019-09-09 19:59:36 154

原创 总结

什么是爬虫网络爬虫?是一种按照一定的规则,自动抓取万维网信息的程序或者脚本爬虫的用途?搜索引擎咨询新闻网站购物助手(慧慧购物)数据分析与研究积累原始数据资源抢票软件等爬虫的分类?通用爬虫(搜索引擎抓取系统(百度、谷歌、雅虎等)的重要组成部分,主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份)第一步:搜索引擎爬虫抓取网页流程1.首先选取一部分的种子URL,将...

2019-09-09 08:49:42 161

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除