爬虫
C爬爬
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python3爬虫之Requests
Requests 的使用 import requests response = requests.get("https://www.baidu.com") print(type(response)) print(response.status_code) print(type(response.text)) print(response.text) print(response.cookies...原创 2018-12-12 18:33:34 · 259 阅读 · 0 评论 -
python3爬虫之BeautifulSoup
BeautifulSoup的使用 from bs4 import BeautifulSoup html = ''' <html><head><title>The Dormouse's story</title></head&原创 2018-12-13 19:45:40 · 194 阅读 · 0 评论 -
动态HTML处理————selenium库的使用
Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。 Selenium 可以根据我们的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生。 Selenium 自己不...原创 2018-12-20 10:47:22 · 561 阅读 · 0 评论 -
python3爬虫之 PyQuery库
简介 PyQuery库也是一个非常强大又灵活的网页解析库,如果你有前端开发经验的,都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择,PyQuery 是 Python 仿照 jQuery 的严格实现。语法与 jQuery 几乎完全相同,所以不用再去费心去记一些奇怪的方法了。 初始化 初始化的时候一般有三种传入方式:传入字符串,传入url,传入文件 字符串初始化 html = ''' ...原创 2018-12-17 14:25:20 · 283 阅读 · 0 评论 -
Python 爬虫实战
学习再多的理论不实际动手,还是不会写,今天抽点空,写了两个常见的例子 一、爬取百度贴吧的图片 import requests from lxml import etree import json class Tieba(): def __init__(self,name): self.name = name self.header = {"User-Age...原创 2018-12-27 20:04:00 · 367 阅读 · 0 评论 -
python3爬虫之爬虫的原理
爬虫的基本流程 发起请求 通过HTTP库向目标站点发起请求,也就是发送一个Request,请求可以包含额外的header等信息,等待服务器响应 获取响应内容 如果服务器能正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型可能是HTML,Json字符串,二进制数据(图片或者视频)等类型 解析内容 得到的内容可能是HTML,可以用正则表达式,页面解析库进行解析,可...原创 2018-12-11 18:33:31 · 158 阅读 · 0 评论 -
Python3爬虫之urllib
urllib库的基本使用 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 在Python中有很多库可以用来抓取网页,我们先学习urllib。 Urllib是python内置的HTTP请求库 包括以下模块 urllib.request 请求模块 urllib.error 异常处理模块 urllib.parse url解析模块 urllib.robotparser ro...原创 2018-12-11 19:04:47 · 229 阅读 · 0 评论 -
使用XPath的爬虫
爬取某贴吧 import requests from lxml import etree import json class Tieba(object): def __init__(self,tieba_name): self.tieba_name=tieba_name self.headers={ "User-Agent": "Mo...原创 2018-12-18 19:25:44 · 337 阅读 · 0 评论
分享