
爬虫
文章平均质量分 55
xiaoming0018
这个作者很懒,什么都没留下…
展开
-
Python爬取网页Utf-8解码错误及gzip压缩问题的解决办法
header是否存在 'Accept-Encoding':' gzip, deflate',2)的解决办法为:import requestsimport gzipurl="http://news.sina.com.cn/c/nd/2017-02-05/doc-ifyafcyw0237672.shtml"req = requests.get(url)req.encoding= 'utf-8'原创 2021-05-31 15:30:23 · 1015 阅读 · 1 评论 -
python爬虫利器 pyppeteer(模拟浏览器) 实战
现在有新方法可以搞定这个模拟登陆了,不会被检测出来,可以完美的绕过对window.navigator.webdriver的检测,pyppeteer是个好东西!需要用到的python包:asyncio、pyppeteer友情提醒一下,第一次运行pyppeteer的会下载chromium,速度很慢慢慢慢,还有可能失败。务必耐心等待!!!然后,这个pyppeteer对网速和电脑运行速度还有一定的要求...原创 2019-05-05 14:46:45 · 9378 阅读 · 1 评论 -
Python爬虫之PyQuery的用法
python教程全解1、安装 pip install pyquery2、官方文档: https://pythonhosted.org/pyquery/3、初始化(1)直接字符串 (pq 参数可以直接传入 HTML 代码,doc 现在就相当于 jQuery 里面的 $ 符号了)from pyquery import PyQuery as pqdoc = pq("<htm...转载 2019-01-17 16:35:18 · 515 阅读 · 0 评论 -
爬虫数据分析------Pandas和Matplotlib
pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。 Pandas数据类型Series [ˈsɪəri:z] :一维数组,与Nump...原创 2018-05-26 05:45:55 · 1367 阅读 · 0 评论 -
爬虫------scrapy 框架--Spider、CrawlSpider(规则爬虫)
scrapy 框架分为spider爬虫和CrawlSpider(规则爬虫)官方文档:http://scrapy-chs.readthedocs.io/zh_CN/latest/topics/shell.htmlScrapy()是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。不用自己去实现的异步框架Scrapy常用命令执行顺序SPIDER...原创 2018-05-23 08:57:30 · 6330 阅读 · 1 评论 -
爬虫------Selenium与PhantomJS无页面浏览器
Selenium(http://www.seleniumhq.org/)是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作文档地址:http://selenium-python.readthedocs.io/index.htmlSelenium的安装:Python3中用命令安装:sudo pip3 install seleniumP...原创 2018-05-23 08:56:51 · 783 阅读 · 0 评论 -
爬虫------Beautiful Soup与json的转化
BeautifulSoup4和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。lxml 只会局部遍历,而Beautiful Soup 是基于HTML DOM的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。BeautifulSoup 用来解析 HTML 比较简单,A...原创 2018-05-23 08:56:06 · 11499 阅读 · 0 评论 -
爬虫------XPath与lxml
XML 指可扩展标记语言(EXtensible Markup Language)。XML 是一种标记语言,很类似 HTML。XML 的设计宗旨是传输数据,而非显示数据。被设计为传输和存储数据,其焦点是数据的内容。XML 是 W3C 的推荐标准 W3School官方文档:http://www.w3school.com.cn/xml/index.aspXPath (XML Path Languag...原创 2018-05-23 08:50:00 · 286 阅读 · 0 评论 -
爬虫------requests高级
Requests支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动确定响应内容的编码,支持国际化的 URL 和 POST 数据自动编码。Python3中安装利用 pip3 完成安装:pip3 install requestsparams 接收一个字典或者字符串的查询参数,字典类型自动转换为url编码,不用urlencode()Requests(params...原创 2018-05-23 08:49:34 · 672 阅读 · 0 评论 -
爬虫------基础
企业产生的用户数据:百度指数:http://index.baidu.com/阿里指数:https://alizs.taobao.com/TBI腾讯浏览指数:http://tbi.tencent.com/新浪微博指数:http://data.weibo.com/index数据平台购买数据:数据堂:http://www.datatang.com/about/about-us.html国云数据市场:ht...原创 2018-05-22 20:16:21 · 266 阅读 · 0 评论 -
scrapy-redis分布式-------处理Redis里的数据
1. 处理Redis里的数据新浪新闻的数据爬回来了,但是放在Redis里没有处理。之前我们配置文件里面没有定制自己的ITEM_PIPELINES,而是使用了RedisPipeline,所以现在这些数据都被保存在redis的sina:items键中,所以我们需要另外做处理。在example-project目录下可以看到一个process_items.py文件,这个文件就是scrapy-redis的e...原创 2018-05-23 08:59:20 · 1123 阅读 · 0 评论 -
Scrapy—redis分布式组件
分布式:一个业务分拆多个子业务,部署在不同的服务器上。集群是个物理形态,分布式是个工作方式。scrapy-redis架构Scrapy是一个比较好用的Python爬虫框架,你只需要编写几个组件就可以实现网页数据的爬取。但是当我们要爬取的页面非常多的时候,单个主机的处理能力就不能满足我们的需求了(无论是处理速度还是网络请求的并发数),这时候分布式爬虫的优势就显现出来。而Scrapy-Redis则是一个...原创 2018-05-23 08:58:27 · 1652 阅读 · 0 评论 -
爬虫------图片下载器与 ItemLoader类的封装
1. 分析网站信息http://www.meizitu.com/1.1 得到每页每个帖子连接:Xpath规则是://h2/a/@href1.2得到帖子标签://div[@class='metaRight']/p/text()1.3得到帖子中的信息得到帖子名称://h2/a/text()1.4得到图片列表://div[@id="picture"]/p/img/@src2. 创建项目创建项目命令:...原创 2018-05-23 08:58:07 · 392 阅读 · 0 评论 -
Python爬虫系列之----Scrapy(六)settings.py配置文件详解
# -*- coding: utf-8 -*- # Scrapy settings for demo1 project # # For simplicity, this file contains only settings considered important or # commonly used. You can find more settings consulting th...转载 2018-05-26 05:45:30 · 268 阅读 · 0 评论 -
Scrapy 框架实战--Request/Response、Mongodb、Middlewares
Request简介及部分源码class scrapy.http.Request():Request对象表示一个HTTP请求,由Spider生成,由Downloader执行。常用的参数1.2.1 urlurl: 就是需要请求,并进行下一步处理的url1.2.2 callbackcallback: 指定该请求返回的Response,由那个函数来处理。1.2.3 methodmethod: 请求一般不需...原创 2018-05-23 08:59:26 · 344 阅读 · 0 评论 -
关于反爬虫,我用实际案例告诉你(三大方法)
1.使用User-Agent--代表身份直接用urllib2(python3使用代替urllib.request)给一个网站发送请求的话,确实略有些唐突了,就好比,人家每家都有门,你以一个路人的身份直接闯进去显然不是很礼貌。而且有一些站点不喜欢被程序(非人为访问)访问,有可能会拒绝你的访问请求。但是如果我们用一个合法的身份去请求别人网站,显然人家就是欢迎的,所以我们就应该给我们的这个代码加上一个身...转载 2018-05-23 09:00:10 · 947 阅读 · 0 评论