
Python爬虫
Java全栈研发大联盟
好记性不如烂笔头,好好学
展开
-
Python3.x中的爬虫小试
爬虫的代码很简单:import urllib.requestdef run_demo(): f=urllib.request.urlopen('http://www.baidu.com') print(f.read())if __name__=='__main__': run_demo()然后直接运行显示结果如下b’\n\n\r\n\r\n\r\n\r\n...转载 2019-07-25 14:40:59 · 501 阅读 · 0 评论 -
Python之初识爬虫
什么是Request,Response?浏览器发送消息给网址所在的服务器,这个过程就叫做HTPP Request服务器收到浏览器发送的消息后,能够根据浏览器发送消息的内容,做相应的处理,然后把消息回传给浏览器,这个过程就是HTTP Response浏览器收到服务器的Response信息后,会对信息进行相应的处理,然后展示Request中包含什么?请求方式主要有:GET/POST两种...转载 2019-07-25 15:21:33 · 590 阅读 · 0 评论 -
python爬虫(三)之 Urllib库的基本使用
什么是Urllib?Urllib是python内置的HTTP请求库包括以下模块urllib.request 请求模块urllib.error 异常处理模块urllib.parse url解析模块urllib.robotparser robots.txt解析模块urlopen关于urllib.request.urlopen参数的介绍:urllib.request.urlopen(u...转载 2019-07-25 16:36:56 · 636 阅读 · 0 评论 -
python爬虫(四)之 Requests库的基本使用
什么是Requests?Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库如果你看过上篇文章关于urllib库的使用,你会发现,其实urllib还是非常不方便的,而Requests它会比urllib更加方便,可以节约我们大量的工作。(用了requests之后,你基本都不愿意用urllib了)一句话,requests是pyth...转载 2019-07-26 10:29:03 · 530 阅读 · 0 评论 -
python爬虫(五)之 正则的基本使用
什么是正则表达式?正则表达式是对字符串操作的一种逻辑公式,就是 事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符”,这个“规则字符” 来表达对字符的一种过滤逻辑。正则并不是python独有的,其他语言也都有正则python中的正则,封装了re模块python正则的详细讲解常用的匹配模式\w 匹配字母数字及下划线\W 匹配非字母数字下划线\s ...转载 2019-07-26 13:35:42 · 589 阅读 · 0 评论 -
Python爬虫:现学现用xpath爬取豆瓣音乐
爬虫的抓取方式有好几种,正则表达式,Lxml(xpath)与BeautifulSoup,我在网上查了一下资料,了解到三者之间的使用难度与性能三种爬虫方式的对比。这样一比较我我选择了Lxml(xpath)的方式了,虽然有三种方式,但肯定是要选择最好的方式来爬虫,这个道理大家都懂,另外有兴趣的朋友也可以去了解另外两种爬虫方式!好了现在来讲讲xpath由于Xpath属于lxml模块,所以首先需...转载 2019-09-03 11:46:39 · 744 阅读 · 0 评论