
python爬虫学习
个人笔记心得
宓海
这个作者很懒,什么都没留下…
展开
-
python网络爬虫之Scrapy框架介绍
Scrapy的框架如图所示,这是从MOOC上获取图表示例,下面介绍具体都是干什么的。架构介绍& Engine。是框架的核心,控制所有模块之间的数据流动,然后根据各个模块出现的时间进行触发。不需进行修改。& Downloader。 下载器。获取请求并提交请求,下载网页内容,并将网页内容返回给Spider。不需进行修改。& Scheduler。 将Engine发过来的请求进行调度,判断在爬取网站时的请求处理顺序,同时也可以在Engine在此请求时将请求提供给Engine。功能固原创 2020-06-22 23:11:32 · 233 阅读 · 0 评论 -
python网络爬虫之非关系型数据库存储——MongoDB 的储存
MongoDB是一个基于分布式文件存储的开源数据库系统,内容储存类似于JSON对象,它的字段值可以包含其他文档、数组及文档数组。下面介绍一点基本操作。1.安装首先需要安装MongoDB并启动了服务,再安装PyMongo库。对此,网上有很多教程,在这里推荐一个,里面也有快速下载的地址,点击这里.2.连接MongoDB我们使用MongoClient连接MongoDB,常规使用传入MongoDB的IP及端口即可,其中第一个参数为地址host,第二个参数为端口port(不传递参数时默认为27017),例如:原创 2020-06-22 17:47:49 · 357 阅读 · 0 评论 -
Python六行代码爬取B站视频
本次实践使用的you_get库,需要自行使用pip进行安装。我们将我们所需下载的B站视频复制粘贴到源码处,运行即可自行下载视频。import you_getimport sysurl = '在此处写下你所要爬取的视频网站'path = './video' #根据个人需求去设置自己的目录sys.argv = ['you-get', '-o', path, url]you_get.main()...原创 2020-05-18 16:41:44 · 1058 阅读 · 0 评论 -
解决爬虫中中文编码问题
我们在爬虫时时常会遇到一些网页上的中文无法爬取到文件的问题,因为会出现乱码,本文就简要说明一些可能出现的中文编码问题。获取网页的中文显示乱码先放一个实例,我们爬取23school官网上的一小段文字。import requestsfrom bs4 import BeautifulSoupurl = 'http://w3school.com.cn/'r = requests.get(url)soup = BeautifulSoup(r.text, "lxml")xx = soup.find(原创 2020-05-11 16:24:21 · 1140 阅读 · 0 评论 -
网络爬虫文件存取(TXT,JSON,CSV)特点与用法
文件存取TXT文本存储1.基本实例2.打开方式3.简化写法JSON文件存储1.对象和数组2.读取输出CSV文件储存1. 写入2.读取总结TXT文本存储1.基本实例首先,我们采用selenium的方法爬取新闻联播文字稿的首页,这是因为这个网页比较简单,本文重点在文件存取上。from selenium import webdriverimport timeurl = "http://xw...原创 2020-05-04 17:11:06 · 1190 阅读 · 2 评论 -
网络爬虫Chrome Headless模式(无界面模式)
进行比较大规模的爬虫会耗费许多的时间,此时一直会有浏览器页面弹出,可能会影响做其他事情,自从Chrome 59版本之后,就开始支持Headless模式,这是可以不会弹出浏览器,使用方法如下:chrome_options = webdriver.ChromeOptions()chrome_options.add_argument('--headless')browser = webdriver...原创 2020-04-26 21:22:39 · 1218 阅读 · 0 评论 -
Python网络爬虫Selenium的简单使用
Python网络爬虫-Selenium首先先说一下对Selenium的看法,个人认为它是在爬虫中比较好用的一个工具,使用习惯后可能不遇到特殊情况的爬取,也是不会换其他的工具的。然后,想要学习爬虫,如果比较详细的了解web开发的前端知识会更加容易上手,时间不够充裕,仅仅了解html的相关知识也是够用的。准备工作:使用它肯定先要安装它,对于Selenium的安装推荐使用pip,十分方便。因为我使...原创 2020-04-25 15:24:21 · 291 阅读 · 1 评论