
Spider
V_lq6h
这个作者很懒,什么都没留下…
展开
-
Google翻译参数解密(11-11)
Google翻译参数解密(11-11)一.请求过程文件地址:https://translate.google.com.hk/translate/releases/twsfe_w_20201102_RC00/r/js/translate_m_zh-CN.js:formatted 22573其中uv函数调用aF函数,结果生成请求链接变量说明:aF 为函数aF = function(a, b, c, d, e, f) { c = c.toString(); c += $E(d)原创 2020-11-11 21:34:02 · 1056 阅读 · 0 评论 -
数据爬取与语音合成
数据爬取与语音合成以python的网站数据爬取,并根据网站数据的内容调用百度音频合成接口进行生成音频文件一.基础工作在百度AI注册一个账号,获取我们需要的应用二.API函数接口的搭建#!/usr/bin/env python3# -*- coding:utf-8 -*-# Author LQ6H# baidu_api.pyimport osfrom aip import AipSpeechAPP_ID = '20257660'API_KEY = 'QmnUG6DxYf0D原创 2020-06-06 15:57:20 · 628 阅读 · 0 评论 -
电影评论爬取与分析
用户电影评论分析from snapshot_selenium import snapshot as driverfrom pyecharts.render import make_snapshotfrom pyecharts.globals import CurrentConfig,NotebookTypeCurrentConfig.NOTEBOOK_TYPE=NotebookType.JUPYTER_LABimport pandas as pdimport jsondatas=[原创 2020-05-21 20:14:42 · 1568 阅读 · 0 评论 -
Python百度文库爬虫终极版
百度文库爬虫Python百度文库爬虫之txt文件Python百度文库爬虫之doc文件Python百度文库爬虫之pdf文件Python百度文库爬虫之ppt文件Python百度文库爬虫之xls文件Python百度文件爬虫终极版我们在开始爬虫之前,首先要了解网页的信息和结构,然后获取请求的url和参数(payloads)来得到所要的数据并处理。接下来我们根据:一.网页分析二.爬虫...原创 2020-04-28 20:51:17 · 30901 阅读 · 19 评论 -
Python百度文库爬虫之xls文件
Python百度文库爬虫之xls文件对于文件的所有类型,我都会用一篇文章进行说明,链接:Python百度文库爬虫之txt文件Python百度文库爬虫之doc文件Python百度文库爬虫之pdf文件Python百度文库爬虫之ppt文件Python百度文库爬虫之xls文件xls文件的爬取与pdf类型,不懂直接看前面pdf文件分析import requestsimport json...原创 2020-04-28 14:46:58 · 1259 阅读 · 0 评论 -
Python百度文库爬虫之ppt文件
Python百度文库爬虫之ppt文件对于文件的所有类型,我都会用一篇文章进行说明,链接:Python百度文库爬虫之txt文件Python百度文库爬虫之doc文件Python百度文库爬虫之pdf文件Python百度文库爬虫之ppt文件Python百度文库爬虫之xls文件一.网页分析PTT文件的内容实际是图片,我们只需要把图片下载并保存from IPython.display i...原创 2020-04-28 14:25:21 · 5854 阅读 · 3 评论 -
Python百度文库爬虫之pdf文件
Python百度文库爬虫之ppt文件对于文件的所有类型,我都会用一篇文章进行说明,链接:Python百度文库爬虫之txt文件Python百度文库爬虫之doc文件Python百度文库爬虫之pdf文件Python百度文库爬虫之ppt文件Python百度文库爬虫之xls文件一.网页分析说明一下:分析doc文件和pdf文件非常相似,从爬取过程来说基本类似。因此我不会花费太多的语言来说明...原创 2020-04-28 14:18:25 · 4943 阅读 · 1 评论 -
Python百度文库爬虫之doc文件
Python百度文库爬虫之doc文件说明:此文件是在爬取txt文件下的基础进行的,因此重复内容会一笔带过,不懂请看前面爬取txt文件链接对于文件的所有类型,我都会用一篇文章进行说明,链接:Python百度文库爬虫之txt文件Python百度文库爬虫之doc文件Python百度文库爬虫之pdf文件Python百度文库爬虫之ppt文件Python百度文库爬虫之xls文件一.网...原创 2020-04-27 21:55:55 · 8308 阅读 · 4 评论 -
Python百度文库爬虫之txt文件
Python百度文库爬虫之txt文件一.网页分析txt文件最容易爬取的文件,此文件类型不需要进行文件排版,直接爬取并保存from IPython.display import ImageImage("./Images/txt_0.png",width="600px",height="400px")此文件的链接(URL):https://wenku.baidu.com/view/147...原创 2020-04-27 16:58:38 · 4069 阅读 · 1 评论 -
pandas之read_html爬虫
Pandas之read_html爬虫一.简介我们常用的爬虫工具就是urllib和requests.但是我们还没有用过pandas.read_html来爬虫吧,但是他只能爬取table属性内容table,因此功能有所局限.接下来我们分别使用上述方法来实现,来对比一下效果二.requests爬取import requestsfrom lxml import etreeimport pand...原创 2020-04-24 12:11:41 · 14798 阅读 · 3 评论 -
scrapy终端与核心组件
scrapy终端与核心组件一.scrapy shellscrapy shell是一个交互式终端,可用于在不启动爬虫的情况下尝试及调试爬取代码.也可以用来测试XPath或CSS表达式,查看它们的工作方式以及爬取的网页中提取的数据scrapy shell一般使用标准python终端,但是如果安装了IPython,scrapy shell将优先使用IPython1.启动scrapy shel...原创 2019-11-08 00:11:17 · 480 阅读 · 0 评论 -
爬虫框架Scrapy
爬虫框架Scrapy一.scrapy概述Scrapy使用了Twisted异步网络框架来处理网络通信,该网络框架可以加快下载速度,并且包含了各种中间件接口,可以灵活地完成各种需求Scrapy功能强大,它支持自定义Item和Pipline数据管道;支持在Spider中指定(网页域范围)以及对应的Rule(爬取规则);支持XPath对DOM的解析等.而且Scrapy还有自己的shell,可以方便...原创 2019-11-08 00:10:47 · 725 阅读 · 0 评论 -
存储爬虫数据--Mongodb
存储爬虫数据–Mongodb通常,从网页爬取到的数据需要进行分析,处理或格式化,然后进行持久化存储,以备后续使用.数据存储主要有两种方式:文件存储和数据库存储一.使用PyMongo库存储到数据库PyMongo是用于MongoDB的开发工具,是python操作MongoDB数据库的推荐方式.PyMongo中主要提供了如下类与MongoDB数据库进行交互:MongoClient类:用于与M...原创 2019-11-08 00:10:13 · 853 阅读 · 0 评论 -
图像识别与文字处理
图像识别与文字处理为了解决将图像翻译成字符的问题,python中引入了光学字符识别(Optical Character Recognition,OCR)技术,而Tesseract是目前公认最优秀和最精确的开源OCR系统一.OCR技术概述光学字符识别(Optical Character Recognition,OCR)是指对包含文本资料的图像资料文件进行分析识别处理,获取文字及版面信息的技术...原创 2019-11-08 00:09:41 · 1265 阅读 · 0 评论 -
动态网页爬取
动态网页爬取动态网页是指在网页中依赖JavaScript脚本动态加载数据的网页一.selenium和PhantomJS1.seleniumselenium是一个Web的自动化测试工具,selenium可以直接运行在浏览器上.selenium可以根据用户的指令,让浏览器自动加载页面,获取需要的数据集,甚至页面截屏2.PhantomJSPhantomJS是一个基于Webkit的"无界...原创 2019-11-08 00:09:10 · 387 阅读 · 0 评论 -
并发下载
并发下载一.queue的实现from queue import Queuequeue_object=Queue()for i in range(4): queue_object.put(i) while not queue_object.empty(): print(queue_object.get())0123from queue impor...原创 2019-11-08 00:08:38 · 266 阅读 · 0 评论 -
数据解析
数据解析数据格式分为非结构化和结构化两种.非结构化数据是指数据结构不规则或不完整,没有预定义的数据模型,不方便使用数据库二维逻辑来表现的数据,包括所有格式的办公文档,文本,HTML,图像等.结构化数据就是能够用数据或统一的结构加以表示,具有模式的数据,包括XML和JSON等一.网页解析技术借助网页解析器从网页中解析和提取出有价值的数据,或者新的URL列表.python支持一些解析网页的技术...原创 2019-11-08 00:07:31 · 2099 阅读 · 0 评论 -
爬虫原理与技术
爬虫原理与技术一.爬虫实现原理1.通用爬虫工作原理通用爬虫是一个自动提取网页程序的程序,它为搜索引擎从Internet上下载网页,是搜索引擎的重要组成部分通用爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在爬取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的停止条件from IPython.display import ImageImage(f...原创 2019-11-07 12:10:34 · 733 阅读 · 0 评论 -
爬虫基本概念
爬虫基本概念一.爬虫的概念网络爬虫又称为网络蜘蛛,网络机器人,是一种按照一定的规则,自动请求万维网网站并提取网络数据的程序或脚本二.爬虫的分类通常可以按照不同的维度对网络爬虫进行分类;按照使用场景,可将爬虫分为通用爬虫和聚焦爬虫;按照爬取形式,可分为累积式爬虫和增量式爬虫;按照爬取数据的存在方式,可分为表层爬虫和深层爬虫1.通用爬虫和聚焦爬虫通用爬虫是搜索引擎爬取系统(Baidu...原创 2019-11-07 12:10:04 · 896 阅读 · 0 评论 -
第三节--验证码识别
第三节–验证码识别一.验证码类型在开发爬虫时,经常会遇到验证码识别,在网站中加入验证码的目的是加强用户安全性和提高防爬虫机制,有效防止对某一个特定注册用户用特定程序暴力破解的方式不断地进行登录尝试。在此介绍验证码的种类:字符验证码:在图片上随机产生数字,英文字母或汉字,一般有4位或者6位验证码字符。通过添加干扰线,添加噪点以及增加字符的粘连程序或旋转角度来增加机器识别的难度图片验证码:图...原创 2019-02-16 12:19:39 · 444 阅读 · 0 评论 -
第二节--Urllib数据抓取
第二节–Urllib数据抓取一.Urllib简介Urllib是python自带的标准库,无须安装,直接引用即可。Urllib通常用于爬虫开发,API(应用程序编程接口)数据获取和测试。在python2和python3中,Urllib在不同版本中的语法有明显的改变python2分为Urllib和Urllib2,Urllib2可以接收一个Request对象,并对此来设置一个URL的Headers...原创 2019-02-16 12:19:17 · 227 阅读 · 0 评论 -
第一节--理解网络爬虫
第一节–理解网络爬虫一.爬虫的定义网络爬虫是一种按照一定的规则自动地抓取网络信息的程序或者脚本。简单来说,网络爬虫就是根据一定的算法实现编程开发,主要通过URL实现数据的抓取和发掘传统的爬虫有百度,Google等搜索引擎,这类通用的搜索引擎都有自己的核心算法。但是,这类通用的搜索引擎也存在着一定的局限性:不同的搜索引擎对于同一个搜索会有不同的结果,搜索出来的结果未必是用户所需的信息通用...原创 2019-02-16 12:18:50 · 1410 阅读 · 0 评论