
爬虫
文章平均质量分 79
Jason_HHuang
这个作者很懒,什么都没留下…
展开
-
豆瓣读书\豆瓣电影
获取豆瓣读书页信息,网址为:https://book.douban.com/,代码如下:# coding:utf-8import requestsfrom lxml import etree# 1.获取豆瓣读书网页内容headers = { "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/53...原创 2018-06-12 20:11:36 · 587 阅读 · 0 评论 -
Scrapy框架架构(一)
1. Scrapy框架介绍Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。Scrapy 使用了 Twisted异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种需求。...原创 2018-07-17 22:47:03 · 502 阅读 · 0 评论 -
BeautifulSoup解析工具与css选择器使用简介
# coding:utf-8import requestsfrom lxml import etreefrom bs4 import BeautifulSoupimport chardetBASE_DOMAIN = "http://www.ygdy8.net"HEADERS = { "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win...原创 2018-06-14 14:26:17 · 677 阅读 · 0 评论 -
使用lxml解析HTML代码
1. 解析html字符串。使用“lxml.etree.HTML( )”进行解析。示例代码如下:# --coding:utf-8-- #from lxml import etreetext = """"""htmlelement = etree.HTML(text)print etree.tostring(htmlelement, encoding="utf-8").decode("ut...原创 2018-06-12 14:46:27 · 4708 阅读 · 0 评论 -
requests库的基本使用
1. response.content和response.text的区别response.content是编码后的byte类型(“str”数据类型),response.text是unicode类型。这两种方法的使用要视情况而定。注意:unicode -> str 是编码过程(encode()); str -> unicode 是解码过程(decode())。示例如下:# --codin...原创 2018-06-10 00:40:24 · 672 阅读 · 0 评论 -
python匿名函数的使用
1. enumerate()方法可以同时拿到index和value。2. python匿名函数,lambda表达式,可以简化代码。详见2.2可视化过程。3. map()函数返回的是map类型,需要转换成list类型。示例代码如下:# coding:utf-8import requestsfrom bs4 import BeautifulSoupimport jsonfrom pyecha...原创 2018-06-15 13:56:44 · 763 阅读 · 0 评论 -
BeautifulSoup解析工具
BeautifulSoup常用的四种对象(Type)BeautifulSoup将复杂的HTML文档转换成一个复杂的树型结构,每个节点都是Python对象,所有对象可以归纳为4种:Tag、NavigatableString、BeautifulSoup、Comment。Tag通俗来讲就是HTML中的一个个标签。BeautifulSoup中的Select()方法# coding:utf-8impor...原创 2018-06-14 14:58:14 · 477 阅读 · 0 评论 -
动态网页数据抓取(一)
1.什么是AJAX?AJAX = Asynchronous JavaScript and XML(异步的 JavaScript 和 XML)。AJAX 不是新的编程语言,而是一种使用现有标准的新方法。AJAX 最大的优点是在不重新加载整个页面的情况下,可以与服务器交换数据并更新部分网页内容。AJAX 不需要任何浏览器插件,但需要用户允许JavaScript在浏览器上执行。详细参考:http://w...原创 2018-06-26 21:15:24 · 4172 阅读 · 0 评论 -
python2.7中urlretrieve( )函数的使用
python2.7中的urllib.urlretrieve( )方法1. urlretrieve()方法直接将远程数据(图片或者文档)下载到本地。具体参数为: urlretrieve(url, filename=None, reporthook=None, data=None)参数filename指定了保存本地路径(如果参数未指定,urllib会生成一个临时文件保存数据。)参数repo...原创 2018-06-21 12:52:10 · 2693 阅读 · 0 评论 -
Scrapy框架架构(二)
1.pipeline保存数据(用python自带的Json格式保存数据)(1)response是一个“scrapy.http.response.html.HtmlResponse”对象。可以执行“xpath”和“css”语法来提取数据。(2)提取出来的数据,是一个“Selector”或者是一个“SelectorList”对象。如果想要获取其中的字符串,那么应该执行“getall”或者“ge...原创 2018-07-17 23:53:49 · 335 阅读 · 0 评论