
python爬虫
文章平均质量分 93
soyabean555999
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python爬虫---Requests库的基本使用
什么是Requests Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库 如果你看过上篇文章关于urllib库的使用,你会发现,其实urllib还是非常不方便的,而Requests它会比urllib更加方便,可以节约我们大量的工作。(用了requests之后,你基本都不愿意用urllib了)一句话,requests是p转载 2018-01-05 15:46:36 · 1921 阅读 · 0 评论 -
XPath学习笔记---2(特殊用法)
文章转自:http://blog.youkuaiyun.com/skyeyesxy/article/details/50838003 概要: XPath的介绍与配置XPath的使用XPath的特殊用法Python并行化 1.XPath的介绍与配置 官方名称:XML路径语言(XMLpathlanguage)用来确定xml文档中某部分位置的语言(查找信息)XPath支持HTML转载 2018-01-19 12:34:38 · 857 阅读 · 0 评论 -
Html学习
文章转自:http://blog.youkuaiyun.com/skyeyesxy/article/details/508379281.Html和CSS的关系HTML,CSS,JavaScript三门语言为web前端必备语言,一下就是他们的作用:a.HTML是网页内容的载体内容就是网页制作者放在页面上想要让用户浏览的信息,可以包含文字、图片、视频等,即将基本内容放在网页上。b.CSS样式是表现就像网页的外衣。转载 2018-01-19 12:33:32 · 440 阅读 · 0 评论 -
python并行爬虫
Python并行化并行化介绍Map的使用1)并行化介绍[x] 多个线程同时处理任务[x] 高效[x] 快速2)Map的使用map函数一手包办了序列的操作,参数传递和结果保存等一系列的操作。from multiprocessing.dummy import Poolpool = Pool(计算机核数)results = pool.map(爬取函数,网址列表)# -*-coding: utf-8 -*转载 2018-01-19 12:34:00 · 3005 阅读 · 1 评论 -
正则匹配---爬虫中常用的
文章转自:http://blog.youkuaiyun.com/skyeyesxy/article/details/50837984正则表达式学习链接:http://www.runoob.com/python/python-reg-expressions.html1.正则表达式的符号与方法常用符号:点号,星号,问号与括号(小括号).:匹配任意字符,换行符\n除外*:匹配前一个字符0次或无限次?:匹配前一个字符转载 2018-01-19 12:34:11 · 3360 阅读 · 0 评论 -
XPath学习笔记
1、XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。XPath 节点XPath 术语节点在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点。XML 文档是被作为节点树来对待的。树的根被称为文档节点或者根节点。请看下面这个 XML 文档: Harry Potte转载 2018-01-19 12:34:42 · 379 阅读 · 0 评论 -
python爬虫---mechanize
mechanize介绍mechanize是对urllib2的部分功能的替换,能够更好的模拟浏览器行为,在Web访问控制方面做得更全面。它对protocol, cookie, redirection都做了比较好的支持,再结合beautifulsoup和re模块,可以非常有效的解析web页面。常用函数.CookieJar():设置cookie .Browser():打开浏览器 .addheaders(...转载 2018-03-08 17:04:33 · 1377 阅读 · 2 评论