
笔记
裂开的爆米花
这个作者很懒,什么都没留下…
展开
-
2021-01-21
用 Python 写爬虫,首先需要会 Python,把基础语法搞懂,知道怎么使用函数、类、list、dict 中的常用方法。接着需要了解 HTML,然后是关于 HTTP 的知识,爬虫基本原理就是通过网络请求从远程服务器下载数据的过程,而这个网络请求背后的技术就是基于 HTTP 协议。了解 HTTP 协议之后,可以专门有针对性的学习和网络相关的模块,比如 Python 自带有 urllib、httplib,Cookie等内容,数据爬下来,大部分情况是 HTML 文本,也有少数是基于 XML 格式或者 Json原创 2021-01-21 11:25:08 · 65 阅读 · 0 评论 -
正则表达式
正则表达式又称规则表达式(Regular Expression),通常被用来检索、替换那些符合某个模式(规则)的文本,目前很多编程语言都支持正则表达式,正则表达式的缩写为regex正则表达式的优点有:①灵活性、逻辑性和功能性非常强②可以迅速地用极简单的方式达到字符串的复杂控制python使用正则表达式需要导入re包,因为re包是python自带的,所以无需下载就可以使用。下面这些是正则表达式的常用方法模板re包含使用正则表达式的函数。1、search(pattern, strin...原创 2020-10-20 13:11:34 · 236 阅读 · 0 评论