
Python 爬虫
Python爬虫
大数据AI
公众号:大数据AI
展开
-
Python开发简单爬虫之爬虫介绍(一)
本博客来自慕课网—Python开发简单爬虫爬虫主要场景: - 不需要登录的静态网页 - 使用Ajax异步加载的内容 - 需要用户登录才可以访问的网页以下主要介绍 不需要登录的静态网页。一、爬虫简介以及爬虫的技术价值1. 爬虫是什么2. 爬虫技术的价值二、简单爬虫架构1. 简单爬虫架构爬虫调度端:开启爬虫、终止爬虫、监视爬虫的运行情况URL管理器:将要爬取的URL和已经爬取过的URL进行管理原创 2016-10-27 22:37:45 · 6360 阅读 · 2 评论 -
初步使用scrapy
Scrapy at a glance爬取[http://stackoverflow.com/questions?sort=votes](‘http://stackoverflow.com/questions?sort=votes‘)页面的每个问题link,以及每个问题的第一答案的title,body,votes,tags.link对应的数据格式: response.css(‘.question-原创 2016-10-27 22:48:49 · 478 阅读 · 0 评论 -
爬虫进阶
Python爬虫架构选择HTML解析器:HTMLParser,BeautifulSoup4,XPath的lxml. 选择:XPath > BeautifulSoup4 > HTMLParserHTTP请求:urllib,urllib2,requests 选择:requsets >> urllib2,urllib爬虫框架:ScrapyPython爬虫进阶内容Scrapy爬虫框架beautifu原创 2016-10-27 22:47:50 · 634 阅读 · 0 评论 -
爬虫实例:从百度图片下载壁纸
一、数据分析百度图片壁纸网址:http://image.baidu.com/channel/wallpaper1.打开网址,点击国家地理,打开Chrom浏览器的开发者工具,选中图片图片元素。获得第一张图片的url为: http://b.hiphotos.baidu.com/image/w%3D400/sign=937884d0d5ca7bcb7d7bc62f8e086b3f/64380cd7912原创 2016-10-27 22:47:08 · 1417 阅读 · 0 评论 -
爬虫实例:唐诗三百首
介绍唐诗三百首网址:http://www.gushiwen.org/gushi/tangshi.aspx爬取诗词标题爬取诗词作者爬取诗词的网页地址根据诗的网页地址爬取诗的正文。步骤分析数据格式诗的标题,作者,url的数据格式如下: 如上图所示,所要提取的数据在<a>标签中,但是光靠<a>标签,不能确定这一行, 故需要借助<a>标签的父标签<div>来锁定<a>标签诗的正文数原创 2016-10-27 22:46:34 · 2929 阅读 · 0 评论 -
Python爬虫之urllib2介绍
一、urllib与urllib2的区别urllib2提供了比urllib更丰富的功能。urllib2.Request - 提供http hander定制功能。提供更强大的功能,包括cookie处理,鉴权,可定制话等。urllib2能不能完全替代urllib? –不能,需要用到urllib.encoding()函数。1.urllib2.urlopen()urlopen(url, data=N原创 2016-10-27 22:45:26 · 744 阅读 · 0 评论 -
Python爬虫之urllib介绍
一、urllib.urlopen(url,[data])urlopen(url, data=None, proxies=None, context=None)Create a file-like object for the specified URL to read from.url: scheme(http: / file: )data: 如果有,则变成post方法,数据格式必须是appl原创 2016-10-27 22:44:36 · 841 阅读 · 0 评论 -
Python爬虫之requests介绍
一、基本介绍requsets官网地址和urllib、urllib2的区别:requests不是标准库最好用的http库,pythonic风格安装:pip install requests二、requests请求1.requests.request(method, url, **kwargs)requests.request(method, url, **kwargs) Construc原创 2016-10-27 22:43:45 · 643 阅读 · 0 评论 -
Python爬虫实例:用requests重构豆瓣热播电影爬虫
功能:用requests重新实现豆瓣热播电影(原先用的是urllib,urlib2)增加功能:下载每一个电影的海报图片分析海报图片在HTML代码中的格式<li id="2131940" class="list-item" data-title="魔兽" data-score="8.2" data-star="40" data-release="2016" data-duration="124分原创 2016-10-27 22:42:53 · 1115 阅读 · 0 评论 -
Python爬虫实例:豆瓣热播电影
第1步:热播电影格式使用Chrome打开也爬取的网页,打开Chrome的开发者选项,点击下图中的按钮! ,选中要爬取的区域,然后查看html代码,查看抽取内容的格式。通过上面方法找到热播电影的格式为: <div class="mod-bd"> <ul class="lists"> <li原创 2016-10-27 22:41:59 · 893 阅读 · 0 评论 -
Python爬虫实例:登录豆瓣并修改签名
功能登录豆瓣修改签名一、登录流程分析向哪个url发送请求发送哪些数据有哪些特殊的头字段验证码问题如何解决1.抓取豆瓣登录流程:使用账号:xxxxxx 密码:xxxxxx 抓取得Network如下:豆瓣登录界面网址:https://www.douban.com/accounts/loginGeneralRequest URL:https://accounts.douban.com/lo原创 2016-10-27 22:40:12 · 2236 阅读 · 0 评论 -
Python开发简单爬虫之实战演练
本博客来自慕课网—Python开发简单爬虫接上一篇博客:Python开发简单爬虫之爬虫介绍一、爬虫实例-分析目标项目结构:二、调度程序spider_main.py# -*- coding: utf-8 -*-# 爬虫总调度程序,会以一个入口的url作为参数,爬取相关页面from baike_spider import url_managerfrom baike_spider import htm原创 2016-10-27 22:38:43 · 782 阅读 · 0 评论 -
Cookie介绍
Cookie数据长什么样Request:Cookie:bid=PHjUxRzrHNk; _vwo_uuid_v2=56A954C0557184C73BBB3DF5C8D30C1D|409597a19056d473ebee60708893e9b8; ap=1; _pk_ref.100001.8cb4=%5B%22%22%2C%22%22%2C1465517885%2C%22https%3A%2F%2原创 2016-10-27 22:49:46 · 716 阅读 · 0 评论