
爬虫
JINKELA_
坚持做你自己
展开
-
下载网页的三种方法
1.最简洁的:给定一个URL,将其传送给urllib2模块的urlopen(url)方法,以url作为参数,发送网页请求。返回的内容传送给response对象。2.增强处理,添加data、http header.步骤如下:1)添加一个header,可以向服务器提交http的头信息;添加一个data,可以向服务器提交需要用户输入的数据2)把三个参数url、data、header原创 2016-12-11 22:33:21 · 7003 阅读 · 2 评论 -
小虫出世----第一个爬虫程序(扒下慕课网站的图片)
1.urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件。他以urlopen函数的形式提供了一个非常简单的接口,这是具有利用不同协议获取URLs的能力,他同样提供了一个比较复杂的接口来处理一般情况,例如:基础验证,cookies,代理和其他。它们通过handlers和openers的对象提供。urllib2支持获取不同格式的URLs(在URL的原创 2016-12-09 15:11:56 · 3815 阅读 · 0 评论 -
爬虫----BeautifulSoup 模块
一、根据下载好的HTML网页字符串创建一个BeautifulSoup的对象,创建的同时是将整个文档加载成一个DOM树;二、根据这个DOM树就可以按照节点的名称、属性和文字搜索节点:find_all()方法会搜索出所有满足要求的节点,find()方法只会搜索出第一个满足要求的节点;两个方法的参数一模一样;三、得到节点以后,就可以访问它的名称、属性、文字。原创 2016-12-19 13:26:16 · 902 阅读 · 0 评论