
Spider
张博208
知识搬运工
展开
-
python爬虫入门笔记:Requests库
[-] Python Requests快速入门快速上手 发送请求为URL传递参数响应内容二进制响应内容JSON响应内容原始响应内容定制请求头更加复杂的POST请求POST一个多部分编码Multipart-Encoded的文件响应状态码响应头Cookies重定向与请求历史超时错误与异常 Python Requests快速入门 快速上手 迫不及待了转载 2017-05-14 10:47:56 · 654 阅读 · 0 评论 -
Python爬虫利器二之Beautiful Soup的用法
http://cuiqingcai.com/1319.html 上一节我们介绍了正则表达式,它的内容其实还是蛮多的,如果一个正则匹配稍有差池,那可能程序就处在永久的循环之中,而且有的小伙伴们也对写正则表达式的写法用得不熟练,没关系,我们还有一个更强大的工具,叫Beautiful Soup,有了它我们可以很方便地提取出HTML或XML标签中的内容,实在是方便,这一节就让我们一起来感受一下B转载 2017-05-14 10:57:44 · 746 阅读 · 0 评论 -
Python爬虫入门七之正则表达式
http://cuiqingcai.com/977.html 在前面我们已经搞定了怎样获取页面的内容,不过还差一步,这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢?下面就开始介绍一个十分强大的工具,正则表达式! 1.了解正则表达式 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字转载 2017-05-14 11:07:59 · 337 阅读 · 0 评论 -
Python-第三方库requests详解
Requests 是用Python语言编写,基于 urllib,采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便,可以节约我们大量的工作,完全满足 HTTP 测试需求。Requests 的哲学是以 PEP 20 的习语为中心开发的,所以它比 urllib 更加 Pythoner。更重要的一点是它支持 Python3 哦! Beautiful转载 2017-05-14 10:46:55 · 599 阅读 · 0 评论 -
网络爬虫 学习笔记
利用chrome浏览器, 检查,---Network--doc 重新载入 第一个 选择检查元素,查到对应的标签 import requests from bs4 import BeautifulSoup newsurl='http://news.sina.com.cn/china/' res=requests.get(newsurl) #用chrome查看,知道是get方法,在原创 2017-05-13 22:44:49 · 374 阅读 · 0 评论 -
Python2中的urllib、urllib2与Python3中的urllib以及第三方模块requests
先说说Python2中的url与urllib2(参考此处): 在python2中,urllib和urllib2都是接受URL请求的相关模块,但是提供了不同的功能。两个最显著的不同如下: 1、urllib2可以接受一个Request类的实例来设置URL请求的headers,例如: [python] view plain copy转载 2017-05-14 14:08:57 · 468 阅读 · 0 评论