爬虫
Young-zhou
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python爬虫之scrapy--01爬取伯乐网文章
github:https://github.com/Link-Secret/Python-crawler 准备工作 虚拟环境 mkvirtualenv article_spider 安装scrapy pip install scrapy(可以选择豆瓣源,豆瓣源速度比较快) 如果安装Twisted出错,下载Twisted对应的whl文件安装即可 创建...原创 2018-04-29 09:30:11 · 313 阅读 · 0 评论 -
爬虫从头学之爬虫基本原理
什么是爬虫: 请求网站并提取数据的自动化程序 爬虫基本流程: 发起请求: 通过Http库向目标站点发起请求,即发送一个Request,请求包括额外的headers等信息,等待服务器响应。 获取响应内容 如果服务器能正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型可能有HTML,Json字符串,二进制数据(如图片视频)等类型。 解析内容 得到的内容...原创 2018-06-09 09:58:03 · 471 阅读 · 0 评论 -
爬虫从头学之Requests+正则表达式爬取猫眼电影top100
爬取思路 当我们想要爬取一个页面的时候,我们要保证思路清晰,爬虫的思路分四个步骤,发起请求,获取响应内容,解析内容,存储内容。根据这四个内容我们的思路就很清晰。以下为具体步骤 使用requests库爬出单页内容 根据返回值使用正则表达式分析 保存至文件 对目标网站进行循环以及多线程爬取 项目实战部分 使用requests库爬出单页内容 爬取url:http://maoyan.com...原创 2018-06-09 14:52:24 · 897 阅读 · 0 评论
分享