
python爬虫学习笔记
积水成渊
Li_yy123
hi
展开
-
yield关键字的简单使用
yield<————>生成器生成器是一个不断产生值的函数,包含yield语句的函数就是一个生成器。生成器每次产生一个值(yield语句),函数被冻结;被唤醒后,在此位置继续执行,再产生一个值。(指针一直往后移)生成器相比依次列出所有内容更有优势:更节省内存空间;响应更速度;使用更灵活。若要用列表存储100万个值,严重浪费空间;而生成器,一次产生一个值,一次占用一个空间。...原创 2020-04-12 21:44:53 · 164 阅读 · 0 评论 -
Scrapy爬虫——创建第一个爬虫
一、演示的HTML页面URL:http://python123.io/ws/demo.html内容:二、产生步骤步骤1:建立一个Scrapy爬虫工程 桌面存在空文件夹Scrapy,cmd进入到Desktop\Scrapy中 输入“scrapy startproject python123demo”创建项目,名为python12...原创 2020-04-11 21:12:12 · 559 阅读 · 0 评论 -
Scrapy爬虫框架介绍
一、爬虫框架简介爬虫框架是实现爬虫功能的一个软件结构和功能组件集合。爬虫框架是一个半成品,能够帮助用户实现专业网络爬虫。二、Scrapy爬虫框架结构五个模块: spiders(爬虫):解析downloader产生的相应(response),产生爬取项Item,产生额外的爬取请求(requests) scheduler(调度器):负责对爬取请求进行调度...原创 2020-04-09 21:04:48 · 935 阅读 · 0 评论 -
python安装scrapy失败解决办法
在cmd中输入“pip install scrapy”,安装异常显示如下:需要安装scrapy所依赖的库lxml、pyOpenSSL、Twisted 、pywin32。一、先安装wheel。cmd中输入“pip install wheel”,安装成功。二、输入“python”查看python版本,为3.8.0 64位。所以,wheel包的格式是:xxx-x...原创 2020-04-06 23:40:11 · 1193 阅读 · 0 评论 -
Re库的基本使用
一、正则表达式在Re库中的使用二、Re库的主要功能函数原创 2020-03-29 21:03:40 · 510 阅读 · 0 评论 -
正则表达式的基础知识
一、概念正则表达式(Regular Expression),用来简洁表达一组字符串的表达式。简洁,通配符匹配,一行胜千言。可以理解为编译之前,正则表达式regex仅仅为所写的一串字符,而编译之后为一组字符串。二、常用语法三、实例四、IP地址0~255的匹配...原创 2020-03-29 19:13:33 · 173 阅读 · 0 评论 -
中国大学排名定向爬虫实例
功能描述:程序的结构设计:网页结构:网页代码框架:<tbody> <tr> #第一个大学 <td>...</td> <td>...</td> <td>...</td> ....... </...原创 2020-03-28 21:58:04 · 935 阅读 · 0 评论 -
Requests库的简单理解
r=requests.gets(url) 构造一个向服务器请求资源的Request对象,返回一个包含服务器资源的Response对象分析:原创 2020-03-27 21:20:19 · 498 阅读 · 0 评论 -
Beautiful Soup库的简单使用
BeautifulSoup库的简单使用import requestsr=requests.get("http://python123.io/ws/demo.html")demo=r.textfrom bs4 import BeautifulSoup #导入BeautifulSoup库soup=BeautifulSoup(demo,"html.parser") #使用html.pa...原创 2020-03-28 20:09:18 · 363 阅读 · 0 评论 -
Python如何在交互模式进行多行输入
输入第一行后回车;输入第二行之前敲“Tab”键,进行缩进。否则,报错注意:必须缩进,必须缩进,必须缩进。原创 2020-03-26 21:39:07 · 1859 阅读 · 0 评论 -
爬取网页的通用代码框架
爬取网页的通用代码框架import requestsdef getHTMLText(url): try: r=requests.get(url,timeout=30) r.raise_for_status() #若状态不是200,引发HTTPError异常 r.encoding=r.apparent_encoding return r.text except: ...原创 2020-03-27 21:31:08 · 579 阅读 · 0 评论