
python 爬虫笔记
文章平均质量分 69
python 爬虫python 爬虫python 爬虫python 爬虫python 爬虫python 爬虫
咸鱼桨
只做分享。无人维护,有事请去B站找我。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Execl操作
Execl操作Execl操作安装Excel相关的库读取Excel文件读取Excel文件写入Excel文件Execl操作安装Excel相关的库在爬虫开发中,我们主要关注Excel文件的读写,不会过多关心Excel中的一些样式。如果想要读写Excel文件,需要借助到两个库xlrd和xlwt,其中xlrd是用于读的,xlwt是用于写的,安装命令如下:pip install xlrdpip install xlwt读取Excel文件打开Excel文件:xlrd.open_workbook(“ab原创 2021-07-29 14:48:44 · 264 阅读 · 0 评论 -
CSV文件处理
CSV文件处理CSV文件处理:CSV文件读取的两种方式:CSV文件的写入的两种方式:CSV文件处理:CSV文件读取的两种方式:import csv# 这种方式读取到的每一条数据是一个列表,所以需要通过下标的方式获取具体某一个值# with open("stock.csv",'r',encoding='gbk') as fp:# reader = csv.reader(fp)# for x in reader:# print(x[3])# 这种方式读取到的原创 2021-07-20 13:54:41 · 332 阅读 · 0 评论 -
JSON字符串
JSON字符串JSON字符串处理:什么是JSON字符串将Python对象dump成JSON字符串将JSON字符串load成Python对象JSON字符串处理:什么是JSON字符串JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式。它基于 ECMAScript (w3c制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。 易于人阅读和编写,同时也易于机器解析和原创 2021-07-20 13:42:22 · 1027 阅读 · 0 评论 -
正则表达式
正则表达式正则表达式:单字符匹配:多字符匹配:正则表达式案例:开始/结束/贪婪和非贪婪:转义字符和原生字符串:分组:re中常用的函数:正则表达式:正则表达式,又称规则表达式。(英语:RegularExpression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。通俗理解:按照一定的规则,从某个字符串中匹配出想要的数据。这个规则就是正则表达式。单字符匹配:re.match函数re.match 尝试从字符串原创 2021-07-20 12:54:53 · 173 阅读 · 0 评论 -
lxml库
lxml库lxml库基本使用读取html文件在lxml中使用xpath语法lxml库lxml 是 一个HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML 数据。lxml和正则一样,也是用 C 实现的,是一款高性能的 Python HTML/XML 解析器,我们可以利用之前学习的XPath语法,来快速的定位特定元素以及节点信息。lxml python 官方文档:http://lxml.de/index.html需要安装C语言库,可使用 pip 安装:pip install lxm原创 2021-07-19 13:58:31 · 751 阅读 · 0 评论 -
XPath语法
XPath安装XPath什么是XPath?XPath开发工具XPath什么是XPath?xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历。XPath开发工具Chrome插件XPath Helper。安装方法:下载:XPath Helper(https://download.youkuaiyun.com/download/weixin_45020839/20108827在chrome浏览器选择【3个原创 2021-07-19 13:39:37 · 306 阅读 · 0 评论 -
XPath安装
XPath安装XPath什么是XPath?XPath开发工具XPath什么是XPath?xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历。XPath开发工具Chrome插件XPath Helper。安装方法:下载:XPath Helper在chrome浏览器选择【3个点】【更多工具】【扩展程序】选择开发者模式如果下载的是.crx的格式则将其改成.zip或者.rar。不然大概原创 2021-07-09 16:59:56 · 3024 阅读 · 0 评论 -
requests库
2.requests库 —第三方库Requests:让HTTP服务人类安装和文档地址:pip install requests发送GET请求import requests# 添加headers和查询参数headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}原创 2021-07-09 14:22:51 · 12466 阅读 · 1 评论 -
cookie
ProxyHandler处理器(代理设置):封ip问题代理原理:在请求目的网站之前,先请求代理服务器,然后让代理服务器去请求目的网站,代理服务器拿到目的网站的数据后,再转发给我们的代码。http://httpbin.org:这个网站可以方便的查看http请求的一些参数。在代码中使用代理 示例:# 使用代理# 步骤url = 'http://httpbin.org/ip'#1. 使用ProxyHandler,传入代理构建一个handlerhandler = request.Pro原创 2021-07-09 10:59:33 · 182 阅读 · 0 评论 -
urllib库
urllib库 urllib库urlopen函数:urlretrieve函数:urlencode函数:编码parse_qs函数:解码urlparse和urlsplit函数:解析urlrequest.Request类:网络请求 可以增加请求头urllib库Urllib是python内置的HTTP请求。是Python中一个最基本的网络请求库。可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据。urlopen函数:创建一个表示远程url的类文件对象,然后像本地文件一样操作这原创 2021-07-07 16:21:13 · 189 阅读 · 0 评论 -
HTTP协议
HTTP协议HTTP协议url详解常见的请求Method常见的请求头参数常见的响应状态码HTTP协议Http协议:全称是HyperText TransferProtocol,中文意思是超文本传输协议,是一种发布和接收HTML(HyperText Markup Language)页面的方法。服务器端口号是80端口。HTTPS协议:是HTTP协议的加密版本,在HTTP下加入了SSL层。服务器端口号是443端口。更多介绍请参考:https://baike.baidu.com/item/HTTPurl详原创 2021-07-07 10:48:06 · 204 阅读 · 0 评论 -
python 爬虫
python 爬虫爬虫什么是爬虫:爬虫应用场景:为什么用Python写爬虫:开发工具的安装:安装Python:安装Pycharm:安装Chrome:爬虫什么是爬虫:爬虫是一个模拟人类请求网站行为的程序。可以自动请求网页、并把数据抓取下来,然后使用一定的规则提取有价值的数据。爬虫应用场景:搜索引擎(百度或谷歌等)伯乐在线。惠惠购物助手。数据分析。抢票软件等。为什么用Python写爬虫:PHP:PHP是世界是最好的语言,但他天生不是做这个的,而且对多线程、异步支持不是很好,并发处理能原创 2021-07-07 09:47:49 · 284 阅读 · 0 评论