
python爬虫
创客老师Apple
与君共同见证学习历程!!
展开
-
Python3爬虫——用selenium获取歌曲id,做一个音乐下载器
我们之前已经学习了selenium的简单实用,现在就来实战下,我们通过selenium获取歌曲的id,然后通过网易云音乐的外链地址来下载音乐,做一个音乐下载器(此项目仅供教学使用),下面我们先来看一下效果:老规矩,我们先来分析下这个音乐下载器的构成:通过输入框输入我们需要搜索的歌曲 点击“搜索”按钮实现对歌曲的搜索 在列表框里选择想要下载的音乐,点击“下载”按钮即可下载 点击“退出”...原创 2019-12-19 20:32:02 · 1990 阅读 · 1 评论 -
Python爬虫——获取ajax异步加载数据
在我们访问网页的时候,经常会看到一种技术,当我们点击了一个选项卡或者其他的链接,网页数据发生了改变,但是网址却没有发生任何变化,那么这种技术就是ajax异步加载数据,当我们点击一个链接的时候,它只是发送了一个数据包过来,然后只是将这个数据包的数据进行了替换,这样的好处就是我们进行网页访问的时候可以更加简洁高效,也更加的节省资源,但是这对于我们爬取数据的要求就更高了,那么我们接下来来看一下怎么爬取异...原创 2019-12-19 17:05:51 · 4524 阅读 · 2 评论 -
Python3爬虫——带参数访问页面(以豆瓣为例)
我们之前在百度图片下载器、个性签名设计器等博文中都有用到将参数发送给服务器,然后返回我们需要的结果,但是两者不同的是,图片下载器我们使用了非常简单粗暴的拼接方法,但是个性签名设计器则使用了发送参数请求的方式,两者看起来肯定是带参数访问来的高端和正规,那我们今天就来讲解一下,如何带参数访问页面;首先我们先打开豆瓣官网:https://www.douban.com/,然后调出Network;我...原创 2019-12-19 16:15:56 · 1223 阅读 · 0 评论 -
Python3爬虫——selenium学习笔记(一)
Selenium是一个自动化web应用程序测试工具,它可以模拟我们浏览器,所有的操作就像是我们自己真实在操作一样,使用selenium我们可以模拟登陆、点击等网页操作,里面也提供了一些数据抓取的工具,我们可以通过页面模拟对数据进行抓取;好了废话不多说,直接一步一步分析:安装selenium:pip install selenium 不知道是不是我凌晨安装的原因,估计服务器在维护,一直...原创 2019-12-17 17:40:20 · 1241 阅读 · 0 评论 -
Python爬虫(五)——小小翻译机(数据源来自有道翻译)
我们之前已经讲过了ajax的相关知识,现在我们来试试模拟js,破解有道翻译做一个桌面级的翻译机;开发环境:Python3.6 谷歌浏览器首先我们还是先分析一下网站:首先我们先打开网站,调出“检查”-“Network”,然后先把所有的数据先清空,然后选中 XHR,这就是我们异步请求交换的数据包: 我们往网站输入我们想翻译的内容,看看会出现什么: 我们发现出现了两个数据,我们先把第...原创 2019-12-16 20:14:42 · 708 阅读 · 0 评论 -
Python爬虫(四)——小说下载器
既然我们之前已经讲了BeautifulSoup的使用,那么我们今天就来实战下,用BeautifulSoup解析小说网站,做一个小说下载器;首先,先分析一下网站:我们的目标是一个叫全小说的网站:https://qxs.la/ 我们可以看见右上角的位置有一个搜索框,我们可以将想要搜索的关键词键入,然后搜索我们想要的内容,我们来分析下这个网站的结构; 我们在搜索框输入“唐家三少”,看看网页会...原创 2019-12-18 23:12:00 · 3766 阅读 · 1 评论 -
Python3爬虫——用BeautifulSoup解析古诗文网
我们之前已经用Xpath分析过了古诗文网,但还是感觉有点麻烦,所以今天来讲BeautifulSoup库,它可以很方便的帮我们抓取网页的数据,同样也支持lxml解析器,下面我们来详细介绍:安装BeautifulSoup库:pip install beautifulsoup4导入BeautifulSoup库:import bs4 # 导入BeautifulSoup整个库fr...原创 2019-12-13 17:12:29 · 2759 阅读 · 0 评论 -
Python3爬虫——关于URL中文转码的方法
在我们进行数据传参访问的时候,HTTP协议的参数通常以键值对的形式出现,多个参数之间用 &分隔,但是如果值是中文或者是其他特殊字符的话,就要对其进行转码,不然可能会产生歧义,我们接下来就来看下如何对中文进行转码:from urllib import parsestr = '中国'print(parse.quote(str)) # 对中文进行编码print(parse....原创 2019-12-12 00:36:59 · 7596 阅读 · 1 评论 -
Python爬虫(三)——百度图片下载器
我们之前写的两个小项目,都是对文字的处理和存储,而且没有与我们的动态交互,写的代码是啥就只能爬取啥内容,那么接下来我们就用百度图片讲解一下图片的下载及最简单的键入关键字搜索内容;我们还是先分析一下我们每搜索一个内容,它的网址是怎么变化的,肯定是有所规律的,我们来总结一下:# 我们来对比下这两个网址有什么区别https://image.baidu.com/search/flip?tn=b...原创 2019-12-11 19:20:55 · 1223 阅读 · 6 评论 -
爬虫+Tkinter综合练习——个性签名设计器
python版本:3.6需手动安装python库列表:requests pillow(注意:项目中的PIL库的安装并不是pil,而应该是pillow)浏览器:火狐浏览器完成效果:项目分析:设计界面 获取设计签名图片 下载图片并显示一、设计界面from tkinter import *from tkinter import messageboxfrom t...原创 2019-11-27 20:30:31 · 1095 阅读 · 1 评论 -
Python爬虫(二)——爬取电影天堂,保存下载地址
首先我们开始要分析一下,下载种子我们需要哪几步:获取所有电影页的访问地址 获取电影页源码 提取出下载地址 将下载地址保存首先第一步,我们来分析一下电影天堂网站的结构,发现他跟我们的古诗文网还是非常类似的,全站静网结构,不需要登录,页面有全新的地址,这对于初学来讲是非常容易上手的;接下来我们以国内电影(https://www.ygdy8.net/html/gndy/china/index...原创 2019-12-11 01:42:03 · 10089 阅读 · 2 评论 -
Python爬虫(一)——爬取古诗文网,初识什么是爬虫
首先来说下什么是爬虫,按照百度百科的说法是:是一种按照一定规则,自动抓取万维网信息的程序或者脚本;首先它是程序,需要我们定义好规则,然后程序就会按照定义好的规则抓取网络上的信息,数据抓取下来了之后,需要我们对这个庞大的数据进行筛选、提取,也就是我们通常说的数据清洗,获得我们需要的信息。这里需要说的一点是,爬虫并不是python的专利,用其他的语言也是可以做到的,只是因为python提供了很多方便我...原创 2019-12-09 23:45:31 · 4683 阅读 · 2 评论 -
Python爬虫——用XPath解析网页源码
首先先来介绍下XPath是什么东西:XPath是一个用路径表达式来提取XML文档中节点的工具,我们有很多像有界面的东西都是用xml语言写的,其中HTML就是xml的一种;下面举个栗子理解一下:<html> <body> <h1>title</h1> <p>paragraph</p> <div id=...原创 2019-12-09 20:01:24 · 3711 阅读 · 0 评论