
Python爬虫
The_North
这个作者很懒,什么都没留下…
展开
-
flask制作电影天堂的API接口
flask制作电影天堂的API接口from flask import Flask, requestimport jsonfrom lxml import etreeimport requests#根据自己访问的页面进行url调节url = "https://www.dytt8.net/html/gndy/dyzz/list_23_1.html"headers = { 'U...原创 2020-04-17 17:47:38 · 1540 阅读 · 0 评论 -
结合Tesseract完成图形验证码识别
结合Tesseract完成图形验证码识别TesseractTesseract是目前最准确的OCR(Optical Character Recognition)库.具有很高的灵活性,它可以通过训练识别任何字体。安装windows:https://github.com/tesseract-ocr/tesseract设置环境变量安装完成后,如果想要在命令行中使用Tesseract,那么应该...原创 2020-02-25 10:24:17 · 444 阅读 · 0 评论 -
AJAX介绍和爬取AJAX数据的两种方式
AJAX介绍和爬取AJAX数据的两种方式什么是AJAX:AJAX异步JavaScript和XML。在后台与服务器进行少量的数据交换。AJAX可以使网页实现异步更新。这意味着。可以不重新记载整个页面,对整个网页的某部分进行更新。传统的网页,如果需要更新,必须重载整个网页界面。其实现在数据交互基本上都是使用Json。获取AJAX数据的方式:1.直接分析ajax调用的接口,然后通过代码请求这个接...原创 2020-02-24 09:55:39 · 699 阅读 · 0 评论 -
Selenium安装失败的解决方案
由于报错的类型可能多种,我的报错类型是这个显示时间超时所以我修改了默认等待的时间python -m pip install selenium --default-timeout=100原创 2020-02-19 15:43:19 · 3373 阅读 · 1 评论 -
CSV文件处理
CSV文件处理1.读取csv文件假设存在文件stock.csvimport csvwith open('stock.csv', 'r') as fp: #reader是一个迭代器 reader = csv.reader(fp) for x in reader: print(x)这样操作,以后获取数据的时候,就要通过下标来获取数据。如果想要获取...原创 2020-02-14 15:03:44 · 331 阅读 · 0 评论 -
Json文件处理
Json文件处理什么是json: JSON(JavaScript Object Notation, JS 对象简谱) 是一种轻量级的数据交换格式。它基于 ECMAScript (欧洲计算机协会制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。 易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络...原创 2020-02-14 11:32:38 · 314 阅读 · 0 评论 -
Python爬虫(7)BeautifulSoup4库的使用
Python爬虫(7)BeautifulSoup4库的使用1.什么是BeautifulSoup?和lxml一样,BeautifulSoup也是一个HTML/XML的解析器,主要的功能也是如何解析何提取HTML/XML数据。lxml只会局部遍历,而BeautifulSoup是基于HTMLDOM的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。Beau...原创 2020-02-11 11:20:55 · 398 阅读 · 0 评论 -
Python(requests)爬取电影天堂
Python(requests)爬取电影天堂from lxml import etreeimport requests#根据自己访问的页面进行url调节ul = "https://www.dytt8.net/html/gndy/dyzz/list_23_1.html"headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0;...原创 2020-02-10 16:35:28 · 1196 阅读 · 0 评论 -
Python爬虫系列(6) lxml库
Python爬虫系列(6) lxml库1.什么是lxml库?lxml是一个HTML/XML的解析器,主要功能是如何解析和提取HTML/XML数据。2.安装lxmlpip install lxml3.基本使用from lxml import etreetext ="""<li class="hot"> <span class...原创 2020-02-10 10:14:11 · 449 阅读 · 0 评论 -
Python爬虫系列(5)XPath语法
Python爬虫系列(5)XPath语法和lxml模块1.什么是XPath?xpath是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历2.XPath语法表达式描述示例结果nodename选取此节点的所有子节点bookstore选取bookstore下所有的子节点/如果在最前面,代表从根节点选取,否则选择某...原创 2020-02-07 16:33:53 · 321 阅读 · 0 评论 -
Python爬虫系列(4)requests库的基本使用
Python爬虫系列(4)requests库的基本使用1.为什么学习requests 学习了上一节,大家应该都有体会,urlib编码解码很麻烦,同时cookie信息的保存,还需要借助cookjar,但是本节学习的requests库都帮我们把这些问题解决了。2.安装requests库pip install requests3.requests库的使用3.1发送GET请求1.最简单的...原创 2020-02-07 14:04:24 · 713 阅读 · 0 评论 -
Python爬虫系列(3)
Python爬虫系列(3)1.ProxyHandler处理器(代理设置)很多网站会检测某一段时间某个IP的访问次数(通过流量统计,系统日志等),如果访问次数太多,他会禁止这个IP的访问,所以我们可以设置某一些代理服务器,每隔一段时间换一个代理,就算IP被禁止,以染可以换个IP继续爬取,urllib通过ProxyHandler来设置使用代理服务器,下面代码说明如何使用自定义opener来使用代理...原创 2020-02-07 09:23:53 · 240 阅读 · 0 评论 -
Python爬虫过程中可能存在的几个编码错误
Python爬虫过程中可能存在的几个编码错误req = request.Request(url, headers=headers, data=data, method='POST')解决方案req = request.Request(url, headers=headers, data=parse.urlencode(data), method='POST')第二步req = r...原创 2020-02-03 10:56:57 · 240 阅读 · 0 评论 -
Python爬虫系列(2)urllib
Python爬虫系列(2)urlliburllib 库urllib 库是python中一个最基本的网络请求库,可以模拟浏览器的行为,向目标服务器发送一个请求,并可以保存服务器返回的数据。(1)urlopen 函数在Python3 的urllib库中,所有和网络请求相关的方法,都被放到urllib.request模块下面了,下面举一个例子:from urllib import reques...原创 2020-02-03 10:55:31 · 154 阅读 · 0 评论 -
Python爬虫系列(1)
Python爬虫系列(1)1.什么是爬虫请求网站并提取数据的自动化程序。换句话就是说,我们通过编写代码,模拟成浏览器,请求目标网页,并通过代码提取符合我们查找规则的数据,保存到数据库中。2.爬虫的基本流程(1)发起请求 通过HTTP库向目标站点发起请求,即发起一个Request,请求可以包含额外的headers等信息,等待服务器响应。(2)获取响应内容 如果服务器能正常响应,...原创 2020-02-01 17:12:11 · 209 阅读 · 0 评论