
爬虫
Esun_nyy
这个作者很懒,什么都没留下…
展开
-
爬虫基础7:scrapy
爬虫基础7:scrapyscrapy是什么?Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。安装scrapy:pip install scrapy安装过程中出错:如果安装有错误!!!!pip install Scrapybuilding ‘twisted.test.raiser’ extensi...原创 2020-03-11 22:52:33 · 189 阅读 · 0 评论 -
爬虫基础6:Selenium
爬虫基础6:Seleniumselenium1.什么是selenium? (1)Selenium是一个用于Web应用程序测试的工具。 (2)Selenium 测试直接运行在浏览器中,就像真正的用户在操作一样。 (3)支持通过各种driver(FirfoxDriver,IternetExplorerDriver,OperaDriver,ChromeDriver)驱动真实浏览器完成测试。...原创 2020-03-11 22:50:34 · 238 阅读 · 0 评论 -
爬虫基础5:urllib库使用
爬虫基础5:urllib库使用 urllib.request.urlopen() 模拟浏览器向服务器发送请求 response 服务器返回的数据 response的数据类型是HttpResponse 字节-->字符串 解码decode 字符串-->字节 编码encode read() 字节形式读取二进制 扩展:rede(5)返...原创 2020-03-10 22:47:31 · 201 阅读 · 0 评论 -
爬虫基础4:http和https
爬虫基础4:http和https1.http和https区别? http 明文传输,端口号80 HTTP协议(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收 HTML页面的方法。 https 加密传输,端口号443 HTTPS(Hypertext Transfer Protocol over Secure Socket Laye...原创 2020-03-10 22:44:45 · 162 阅读 · 0 评论 -
爬虫基础3:反爬手段
爬虫基础3:反爬手段1.User-Agent:User Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。2.代理IP西次代理快代理什么是高匿名、匿名和透明代理?它们有什么区别?1.使用透明代理ip,对方服务器可以知道你使用了代理,并且也知道你的真实IP。...原创 2020-03-10 22:42:46 · 203 阅读 · 0 评论 -
爬虫基础2:分类
爬虫基础2:分类爬虫语言分类1.php:多进程和多线程支持不好2.java:目前java爬虫需求岗位旺盛,python爬虫的主要对手,代码臃肿,代码量大、重构成本高,而爬虫需要经常修改,所以不好用3.C\C++:学习成本比较高,性能和效率高,停留在研究层面,市场需求量小,体现程序员能力。4.python:语法简洁优美、对新手友好,学习成本低、支持的模块非常多、有scrapy非常强...原创 2020-03-10 22:41:20 · 169 阅读 · 0 评论 -
爬虫基础1:什么是爬虫
爬虫基础1:什么是爬虫1.什么是互联网爬虫?网络爬虫又称网络蜘蛛、网络蚂蚁、网络机器人等,可以自动化浏览网络中的信息,当然浏览信息的时候需要按照我们制定的规则进行,这些规则我们称之为网络爬虫算法。使用Python可以很方便地编写出爬虫程序,进行互联网信息的自动化检索。搜索引擎离不开爬虫,比如百度搜索引擎的爬虫叫作百度蜘蛛(Baiduspider)。百度蜘蛛每天会在海量的互联网信息中进行...原创 2020-03-10 22:40:26 · 236 阅读 · 0 评论 -
python30行代码爬英雄联盟全部英雄皮肤图片
python30行代码爬英雄联盟全部英雄皮肤图片网页分析首先,我们分析腾讯的lol官方网页https://lol.qq.com/找到每个英雄的属性界面(例:安妮主页https://lol.qq.com/data/info-defail.shtml?id=1,发现id为每个英雄的编号)通过源代码和Network分析,发现安妮全部的信息记录在一个js文件https://game.gtimg.c...原创 2019-12-13 23:02:39 · 717 阅读 · 1 评论 -
炉石传说 爬取全部卡牌
之前我30行爬了英雄联盟全部皮肤这次爬炉石稍稍麻烦点,50行网页分析首先,我们分析炉石官方网站卡牌工具https://hs.blizzard.cn/cards/通过源代码和Network分析,发现返回的卡牌是用post请求的json文件请求数据为:cardClass: hunter #卡的类型:职业keywords: standard: 1t: 1576286199445 #时...原创 2019-12-14 09:26:41 · 984 阅读 · 1 评论