
#爬虫学习之路
王小磊~
这个作者很懒,什么都没留下…
展开
-
python爬虫方便好用的Scrapy框架入门讲解+实战案例
一、Scrapy是什么?1,Scrapy是用纯Python实现一个为了爬取网站数据、提取数据结构二编写的应用框架,用途非常广泛。2,框架的力量,用户需要定制开发几个模块就可以实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。3,Scrapy使用了Twisted异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各自中间件接口,可以灵活的完成各种需求。二、Scrapy框架图●Scrapy Engine(引擎) :负责Spider. ItemPipeline、原创 2020-08-24 17:58:37 · 1132 阅读 · 0 评论 -
反反爬虫—js调试寻找网易云评论加密方式
一些基础的爬虫比较容易理解简单易上手。但是对于一些网站加密的数据使用一些简单粗暴的方式是完全不行的。例如网易云音乐的评论就采用了AES等加密方式。想要获取这些评论就需要寻找评论的加密方式。并对加密方式进行解密。今天我分享的是如何获取这些加密方式的源码。..1,认识网页检查页面如下图,我们进入歌曲详情网页右击 检查 就会出现如下界面。我们来了解几个常用的功能。名称作用元素结合搜索寻找网页中数据路径控制台有些像python的交互命令行,查看函数,关键字等的详细信息,例原创 2020-08-19 12:11:20 · 581 阅读 · 0 评论 -
python爬虫入门—selenuim自动登录qq邮箱
from selenium import webdriverdriver = webdriver.Chrome()# 进入qq邮箱主页面driver.get('https://mail.qq.com/')# 跳转到页面的账号密码框driver.switch_to.frame("login_frame")# 进来时是扫描二维码或者qq直接点击登录,需要跳转到账号密码登录处driver.find_element_by_id("switcher_plogin").click()# 定位到账原创 2020-08-18 15:52:43 · 1095 阅读 · 0 评论 -
python爬虫入门—selenium常规操作
Selenium 库里有个叫 WebDriver 的 API。WebDriver 有点儿像可以加载网站的浏览器,但是它也可以像 BeautifulSoup ,lxml或者其他 Selector 对象一样用来查找页面元素,与页面上的元素进行交互 (发送文本、点击等),以及执行其他动作来运行网络爬虫。...这是一些基本的操作方法,在后边有一一讲解# 导入webdriver模块from selenium import webdriver# 指定使用Chrome浏览器driver = webdri原创 2020-08-17 20:03:21 · 323 阅读 · 0 评论 -
python爬虫入门—selenium谷歌浏览器和驱动
1,认识selenium测试网站后端和前端数据接口对接Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。Selenium 可以根据我们的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生。Selenium 自己不带浏览器,不支持浏览器的功能,它需要与第三方浏览器结合原创 2020-08-17 16:10:36 · 1195 阅读 · 0 评论 -
python爬虫入门—urllib模块
在了解了认识爬虫后我们就开始我们的简单爬虫练习吧!1,urllib库的基本使用urllib是python内置的HTTP请求库,无需安装即可使用,它包含了4个模块:1,request:它是最基本的http请求模块,用来模拟发送请求。2,error:异常处理模块,如果出现错误可以捕获这些异常。3,parse:一个工具模块,提供了许多URL处理方法,如:拆分、解析、合并等。4,robotparser:主要用来识别网站的robots.txt文件,然后判断哪些网站可以爬。因为urllib模块是pytho原创 2020-08-15 21:02:22 · 223 阅读 · 0 评论 -
python爬虫入门—反爬虫
1,在说反爬虫之前我们先想想我们为什么做爬虫?“大数据时代”,获取数据方式有哪些?企业产生的数据:百度搜索指数、腾讯公司业绩数据、阿里巴巴集团财务及运营数据、新浪微博微指数 等…大型互联网公司拥有海量用户,有天然的数据积累优势,还有一些有数据意识的中小型企业,也开始积累自己的数据。数据平台购买数据:数据堂、国云数据市场、贵阳大数据交易所 等…在各个数据交易平台上购买各行各业各种类型的数据,根据数据信息、获取难易程度的不同,价格也会有所不同。政府/机构公开的数据:中华人民共和国原创 2020-08-15 21:33:28 · 418 阅读 · 0 评论 -
python爬虫入门—认识爬虫
1,什么是爬虫?爬虫其实就在我们身边,当你晚上想做点什么时,常常会掏出手机百度一下常用的网站。其实在这个过程中百度就是一个爬虫,它抓取其他网站的数据然后加以修饰出现在你面前。2,了解通用爬虫和聚焦爬虫通用爬虫通用网络爬虫 是捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。这些搜索引擎工作原理大概分为第一步:抓取网页抓取网页获取数据第二步:数据存储搜索引擎通过爬虫爬取到的网页,将数据存入原始页面数据原创 2020-08-15 21:00:09 · 159 阅读 · 0 评论