
Python爬虫
风变课程自学
我土豆去哪了
只想暴富
展开
-
10、爬虫总复习
文章目录1、解析与提取(Beautiful、json)2、更厉害的请求(get、post、cookies)3、存储(csv、openpyxl)4、更多的爬虫(协程/gevent、queue)5、更强大的爬虫(Scrapy框架)6、给爬虫加上翅膀(selenium、邮件/smtplib+email、定时/schedule)1、解析与提取(Beautiful、json)当数据藏匿于网页源代码(BeautifulSoup)手动修改编码类型:response.encoding=‘xxx’当数据藏匿于 X原创 2021-09-15 11:24:14 · 361 阅读 · 0 评论 -
9、Scrapy框架
文章目录Scrapy的结构Scrapy的工作原理Scrapy的用法用Scrapy框架爬取豆瓣Top250图书的数据Scrapy的结构Scrapy的工作原理Scrapy的用法用Scrapy框架爬取豆瓣Top250图书的数据创建一个Scrapy框架(cmd -> d: -> cd xxx)scrapy startproject doubanspiders_top250.pyimport scrapyimport bs4from ..items import DoubanI原创 2021-09-14 15:17:16 · 227 阅读 · 0 评论 -
8、用协程技术和队列爬取
代码:from gevent import monkey#从gevent库里导入monkey模块。monkey.patch_all()#monkey.patch_all()能把程序变成协作式运行,就是可以帮助程序实现异步。import gevent,time,requests#导入gevent、time、requestsfrom gevent.queue import Queue#从gevent库里导入queue模块start = time.time()url_list = ['ht原创 2021-09-12 20:04:46 · 218 阅读 · 0 评论 -
7、Selenium的使用
环境配置:Google Chrome + chromedriver(版本要与Chrome相同,chromedriver.exe放到python.exe所在的文件目录下)+ selenium 3.141.0# # 本地Chrome浏览器的静默模式设置:# from selenium import webdriver #从selenium库中调用webdriver模块# from selenium.webdriver.chrome.options import Options # 从options模块中原创 2021-07-09 15:52:42 · 115 阅读 · 0 评论 -
6、cookies和session的应用
直接见代码:import requests,jsonsession = requests.session()#创建会话。headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 SLBrowser/7.0.0.6241 SLBChan/25'}#添加请求头,避免被反爬虫。原创 2021-07-07 09:27:32 · 127 阅读 · 0 评论 -
5、带参数请求数据(get函数的补充)
import requestsurl = 'https://c.y.qq.com/soso/fcgi-bin/client_search_cp'headers = { 'origin':'https://y.qq.com', # 请求来源,本案例中其实是不需要加这个参数的,只是为了演示 'referer':'https://y.qq.com/n/yqq/song/004Z8Ihr0JIu5s.html', # 请求来源,携带的信息比“origin”更丰富,本案例中其实是原创 2021-07-02 11:02:38 · 205 阅读 · 0 评论 -
4、excel和csv的写入、读取数据操作
# Excel写入的代码:import openpyxl # 0.创建工作簿wb = openpyxl.Workbook() # 1.获取工作表sheet = wb.active# 2.修改工作表名称sheet.title ='new title'# 3.操作单元格sheet['A1'] = '漫威宇宙'rows = [['美国队长','钢铁侠','蜘蛛侠','雷神'],['是','漫威','宇宙', '经典','人物']]for i in rows: sheet.appen原创 2021-07-02 10:24:03 · 399 阅读 · 0 评论 -
2、爬取网页的相关信息(BeautifulSoup库)
以获取到“淘宝网->主题市场”的文本内容为例。1、对网页源代码进行分析(前期准备工作)打开“淘宝网”,按快捷键“F12”打开网页源代码,用元素选择键(下图蓝框标出)选择“主题市场”模块,跳转到该模块相关代码。可以看到,“主题市场”模块(上图左侧红框)的源代码(上图右侧红框)为一个<ul>标签。而该<ul>标签下含有多个<li>标签,每个<li>标签对应着“主题市场”模块内的一行内容。点开一个<li>标签,可以看到,下方内含多个&l原创 2021-02-21 20:09:27 · 291 阅读 · 1 评论 -
1、爬取文章、图片到本地(requests库)
所用软件:Visual Studio Code1、爬个文章到本地#引入requests库(安装:cmd->pip install requests)import requests#调用requests.get('URL')方法,URL为所需数据网址,双击网页网址栏获取res = requests.get('https://localprod.pandateacher.com/python-manuscript/crawler-html/sanguo.md')#以字符串形式返回所获数据no原创 2021-02-17 22:38:17 · 406 阅读 · 1 评论