
爬虫
文章平均质量分 81
以爬虫基础、进阶、实战等的专栏
ytraister
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫scrapy框架中settings的配置
关于settings.py在其他py文件中的调用》scrpay框架中的settings.py中增加某个设置,那么如何在其他py中使用呢?如下settings.py中,增加设置:YOUR_SETTINGS = “xxx”有以下两种解决办法方法一:》在每个需要调用该设置的py文件(middleware.py、pipelines.py等)中,进行导入。from xxx.settings import YOUR_SETTINGS方法二:》在相应的py文件内部直接使用settings。》注:[ m原创 2020-08-23 00:21:25 · 690 阅读 · 0 评论 -
爬虫logging模块的使用
》详情可参考该文✍:https://www.cnblogs.com/xianyulouie/p/11041777.html前言》爬虫中logging模块的使用可谓说是非常方便。当需要爬取多数据,输入多内容时,仅仅依靠 print 函数是看不到是哪个代码的输出,反之会觉得乱;而使用logging可以清晰看出是哪个爬虫文件的输出、行数、时间、什么提示等(这些都可以自定义样式)讲解1、在scrapy爬虫框架中编写以下代码,会在终端中输出日志内容:import logging # 导入logg原创 2020-08-23 00:16:56 · 367 阅读 · 0 评论 -
bs4的使用
参考自该文章✍:https://www.cnblogs.com/gl1573/p/9480022.html转载 2020-07-20 17:27:08 · 143 阅读 · 1 评论 -
词云图的制作
制作词云图效果如下图:准备工作1、jieba库2、wordcloud库3、numpy和PIL模块 (官方的图像处理库,必装)1、jieba库安装:pip install jiebajieba模块是python中常用的分词模块,简单介绍它的作用:(一)结巴分词的分词模式分为三种:(1) 全模式:把句子中所有的可以成词的词语都扫描出来, 速度快,但是不能解决歧义问题(2) 精确模式:将句子最精确地切开,适合文本分析(3) 搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率原创 2020-07-20 11:02:09 · 5891 阅读 · 0 评论 -
爬B站视频弹幕数据
爬B站弹幕数据准备工作视频链接:https://www.bilibili.com/video/BV1PK4y1b7dt?t=1【周杰伦最新单曲《Mojito》】弹幕接口:通过上网搜索,得知B站的弹幕接口为:https://api.bilibili.com/x/v1/dm/list.so?oid=XXX(好像该接口在网页中找不到,所以就先借鉴来使用。ps:oid即为视频的一个编号(不是BV号))获取oid:弹幕接口中的oid怎么获取?通过该链接(在页面检查中可找到):https://api.bi原创 2020-07-15 23:52:30 · 1605 阅读 · 0 评论 -
使用Fiddler抓公众号数据
前言Fiddler是一个http协议调试代理工具,它能够记录并检查所有你的电脑和互联网之间的http通讯,设置断点,查看所有的 “进出” Fiddler的数据(指cookie,html,js,css等文件)。 Fiddler 要比其他的网络调试器要更加简单,因为它不仅仅暴露http通讯还提供了一个用户友好的格式。》本文案例:利用Fiddler抓取公众号数据。》成果:熟悉抓包软件的使用、了解公众号接口数据。准备工作微信PC客户端Fiddler抓包软件(附安装包:Fiddler中文版)进入Fid原创 2020-07-15 23:35:24 · 7318 阅读 · 0 评论 -
破解验证码(2)滑动验证码
前言做爬虫时,难免会遇到需要通过验证码才能访问网址进行爬取内容,所以需要额外掌握破解验证码的技巧才行。本文将讲解另一个验证码示例来进行演示(滑动验证码)上一篇写了: 破解验证码(1)数字英文验证码,可跳转到:https://blog.youkuaiyun.com/ytraister/article/details/106307610实例对腾讯防水墙滑动验证码进行破解 python + selenium + OpenCV验证码地址:https://open.captcha.qq.com/online.htm原创 2020-05-30 08:58:08 · 1751 阅读 · 2 评论 -
爬虫遇到SSL证书问题
✍转载自:https://www.cnblogs.com/fh-fendou/p/7479812.html前言》做爬虫,对于有的网站,需要SSL证书验证,如:12306等网站》若没有设置SSL,会提示如下报错信息:requests.exceptions.SSLError: ("bad handshake: Error([('SSL routines', 'tls_process_server_certificate', 'certificate verify failed')],)",)解决方法转载 2020-05-28 16:52:53 · 3689 阅读 · 1 评论 -
python中urllib.request和requests的使用和区别
✍转载自:https://blog.youkuaiyun.com/qq_38783948/article/details/88239109python中urllib.request和requests的使用和区别urllib.request发起一个简单的请求添加Headers信息requestsurllib.request我们都知道,urlopen()方法能发起最基本对的请求发起,但仅仅这些在我们的实际应用中一般都是不够的,可能我们需要加入headers之类的参数,那需要用功能更为强大的Request类来构建了在转载 2020-05-27 11:08:20 · 1401 阅读 · 0 评论 -
破解验证码(1) 数字英文验证码
前言安装环境pip install Pillowpip install pytesseracttesseract-ocr(客户端) 版本下载地址:https://digi.bib.uni-mannheim.de/tesseract/【本教程用的版本是4.0.0】tesseract-ocr 各版本语言包下载地址:https://tesseract-ocr.github.io/tessdoc/Data-Files【注意:根据版本下载对应字库】修改环境变量安装完 tesseract-ocr(原创 2020-05-25 14:36:06 · 1258 阅读 · 0 评论 -
爬虫 伪装User-Agent大全
User-Agent大全①PC'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 OPR/26.0.1656.60','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/30.0.1599.101 Safari/537.36原创 2020-05-21 16:21:22 · 2106 阅读 · 0 评论 -
模拟 "翻译"
前言》模拟有道词典,制作翻译程序》运行环境:python3安装打包模块:pip install pyinstaller直接上代码:????import requestsimport hashlibimport timeimport randomimport jsonfrom urllib.parse import quoteurl = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=原创 2020-05-11 22:09:46 · 475 阅读 · 0 评论 -
selenium中使用cookie登录
✍转载自:https://www.cnblogs.com/CYHISTW/p/11685846.html前言爬虫方向的小伙伴们都知道网页爬虫经常遇到的问题就是登录账户,有些简单的网站我们可以简单的sendkey来输入账户密码就可以登录,但是有很多网站需要验证码之类的就不太好用了,这时候就体现到了cookie登录的优点了,前段时间网上搜了搜,发现没有什么完整的教程,本文就使用selenium来cookie登录为例做一个简单的教程。环境准备python3seleniumchromedrive转载 2020-05-10 11:52:18 · 26920 阅读 · 14 评论 -
爬当当“python图书”
其实用requests模块爬取数据再熟悉不过了,但是这次分享的是xpath中的一些获取方法,实操一下熟悉用法。直接上代码????:import requestsfrom lxml import etreeimport reimport pymongourl = "http://search.dangdang.com/?key=python&category_path=01.00.00.00.00.00&page_index=1"headers = { "User-Ag原创 2020-05-21 14:27:34 · 301 阅读 · 0 评论 -
爬豆瓣电影top250
概要:爬取网址:豆瓣电影top250爬取内容:电影id、详情页链接、电影名称、导演、上映日期、国家、类型、评分、评论人数等采用re正则来获取需要爬取的内容封装代码将数据存储在mongodb数据库中直接上代码:????import requestsimport reimport pymongoimport timeclass DoubanMovie(object): ...原创 2020-05-06 17:36:23 · 581 阅读 · 0 评论 -
猫眼电影&经典电影爬取
使用request、xpath爬取网址》爬取该网址:猫眼电影之经典影片》爬取内容,如图所示:主要爬取:电影类型、主演、时间、片名和评分》代码如下:import requestsfrom lxml import etreeurl = "https://maoyan.com/films?showType=3"headers = { "Cookie": "_lxsdk_s=1...原创 2020-04-20 20:37:07 · 2090 阅读 · 0 评论 -
一些常见的反爬手段及解决思路
反反爬的主要思路反反爬的主要思路就是:尽可能的去模拟浏览器,浏览器在如何操作,代码中就如何去实现。浏览器先请求了地址url1,保留了cookie在本地,之后请求地址url2,带上了之前的cookie,代码中也可以这样去实现。很多时候,爬虫中携带的headers字段,cookie字段,url参数,post的参数很多,不清楚哪些有用,哪些没用的情况下,只能够去尝试,因为每个网站都是不相同的。当然在...转载 2020-04-15 17:04:03 · 519 阅读 · 0 评论 -
关于Scrapy框架中yield方法和Downloader中间件的讲解
yield方法1》作用:调用yield方法,将请求(request)发送给Scrapy Engine(引擎)进行处理2》参数分析:yield scrapy.Request( # 该Request对象代表了一个http请求,会经由Downloader去执行,从而产生一个response url=task["task_url"], # 请求数据库中的url callbac...原创 2020-04-04 22:32:21 · 879 阅读 · 0 评论 -
Scrapy框架实战项目
1、创建项目:scrapy startproject tubatu_scrapy_project2、梳理需要爬取的内容:url:https://xiaoguotu.to8to.com/tuce/【土巴兔的装修图册】爬取的字段:在items.py文件声明需要爬取的字段???? content_name = scrapy.Field() # 装修名称 content_id = scr...原创 2020-03-28 12:31:06 · 1642 阅读 · 5 评论 -
爬虫框架Scrapy的讲解
一、Scrapy的定义Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。【是纯python实现的框架】二、Scrapy框架的安装pip install scrapy(有可能还需要安装其他的依赖库等【我安装时直接输入此命令进行安装的,中间有报错,但是还是重复此命令...原创 2020-03-26 10:42:22 · 1056 阅读 · 0 评论 -
python selenium模块的一些实用技巧
一、selenium元素定位技巧selenium提供了8种定位方式python selenium中对应8种方法idfind_element_by_id()namefind_element_by_name()class_namefind_element_by_class_name()tag_namefind_element_by_tag_name()...原创 2020-03-22 23:17:28 · 247 阅读 · 0 评论 -
python selenium模块的定义与安装
什么是selenium库》Selenium是一个用于Web应用程序自动化测试工具。Selenium测试直接运行在浏览器中》像真正的用户在操作一样,驱动浏览器执行特定的动作,如点击、下拉等操作selenium库支持的浏览器有哪些》支持的浏览器包括phantomjs,IE(7,8,9,10,11),Mozilla Firefox,Safari,GoogleChrome,Opera等...原创 2020-03-22 16:10:27 · 249 阅读 · 0 评论 -
MongoDB的文件存储
文件存储(一)存储文件》现如今进入到web3.0时代,数据的形式不局限于文字,还有语音、视频、图片等》普通SQL数据库不适合存储文件,但是MongoDB却额外提供了文件存储方式,即:GridFSGridFS存储引擎》GridFS是MongoDB的文件存储方案,主要用于存储超过16M(BSON文件限制)的文件(如:图片、音频等),对大文件有着更好的性能GridFS存储原理》GridF...原创 2020-03-16 17:53:34 · 10950 阅读 · 0 评论 -
python操作MongoDB
pymongo模块安装pip install pymongo创建连接》MongoClient是MongoDB的客户端代理对象,可以用来执行增删改查操作,而且还内置了连接池from pymongo import MongoClientclient = MongoClient(host="localhost", port=27017)client.admin.authenticate("...原创 2020-03-16 16:22:12 · 201 阅读 · 0 评论 -
操作MongoDB
MongoDB的数据结构》MongoDB用BSON(二进制JSON)来保存数据。一条记录就是一个BSON,被称作文档(Document)》某些BSON聚集在一起,就形成了集合(Collection)管理逻辑库创建/切换逻辑库use test查看逻辑库show dbs删除逻辑库db.dropDatabase()管理集合 【集合类似于sql中的表]创建集合db....原创 2020-03-14 18:31:49 · 269 阅读 · 0 评论 -
MongoDB介绍与安装
简介MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的产品MongoDB用C++编写而成,性能良好,可以安装在多种系统上下载连接如下:(根据系统选择安装包,选择稳定版,msi安装格式)https://www.mongodb.com/download-center/community安装与配置若安装在非C盘的位置,如E盘,...原创 2020-03-14 12:01:42 · 149 阅读 · 0 评论 -
lxml库
lxml库什么是lxml库lxml是一种使用Python编写的库,可以迅速、灵活地处理XML支持XPath语句学习lxml库的目的利用所学的XPath语法,来快速定位特定元素以及节点信息目的是提取HTML、XML目标数据安装lxml库pip install lxml详情代码学习,见如下:# 导入lxml库, 调用etree方法from lxml import etre...原创 2020-03-13 12:49:52 · 1257 阅读 · 0 评论 -
Beautiful Soup库的概述
Beautiful Soup库Beautiful Soup提供一些简单的python式的函数用来处理:导航、搜索、修改、分析树等功能它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所有不需要多少代码就可以写出一个完整的应用程序Beautiful Soup是python的一个库,最主要的功能是:从网页获取数据beautifulsoup4==4.7.1第四版本,简称bs4学习...原创 2020-03-12 21:58:26 · 966 阅读 · 0 评论 -
Re模块正则表达式
正则表达式常用符号:Re模块》在python中,我们可以使用内置的re模块来使用正则表达式》可以在sublime中,按ctrl+f,模拟正则表达式的写法一、Re模块的使用步骤使用compile函数将正则表达式的字符串形式编译为一个Pattern对象通过Pattern对象提供的一系列方法对文本进行匹配查找,获得匹配结果(一个Matcch对象)最后使用Match对象提供的属性...原创 2020-03-12 14:06:10 · 526 阅读 · 0 评论 -
XPath的使用
爬虫中XPath的使用转载自:小婷儿的python https://www.cnblogs.com/xxtalhr/p/10520271.html原创 2020-03-11 21:58:04 · 177 阅读 · 0 评论