
python
文章平均质量分 51
NULL_1969
公众号:MCUdebuger,wx:jack_yi_null;b站:计算机考古工程厮
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python语法笔记
1、if 判断 真 假#判断表达式为Falseif x is None:if Not x:if Not x is None:测试:原创 2021-06-05 19:33:35 · 125 阅读 · 0 评论 -
python爬虫控制aiohttp并发数量
前言在使用aiohttp并发访问多个页面时效率,明显比串行requests快很多,但是也存在一个问题,就是网站检测到短时间内请求的数量过多会导致页面请求不成成功,页面返回429 (too many requests)。解决上述问题目前想到两个方法:1、控制请求的时间,用sleep延时,来消耗每一次访问的时间,减少单位时间内的访问量,这样肯定是可以,但效率太低2、控制并发数量,控制并发数量,普遍推荐用信号量来控制使用方法也比较简单如下:from asyncio import tasksfrom a原创 2021-06-05 18:32:21 · 2856 阅读 · 0 评论 -
python爬虫笔记
前言爬虫是什么:通过程序模拟人工操作浏览器,获取网页中的数据,说白了就是和html网页打交道,从网页中找到需要的数据工具介绍:初级爬虫主要用的python工具有,requests模块,aiohttp异步网络访问,selenium自动化网页工具1、requests模块request模块是python3中最基本也是最常用的网络请求模块,用于网页的get和post请求,常见的使用方法如下:1、导入模块 import requests2、设置头或者数据3、访问get/post请求网页4、网页解析原创 2021-06-04 18:46:51 · 404 阅读 · 1 评论 -
xpath使用梳理
xpath操作步骤import requestsfrom lxml import etreeurl = ''response = requests.get(url=url)tree = etree.HTML(response.text)#如果是本地网页tree= etree.parse('path/web.html')#返回网页中所有的tr节点列表list = tree.xpath('//tr')示例操作...原创 2021-05-31 19:04:11 · 132 阅读 · 0 评论 -
python URL编码及乱码问题
前言最近在练习爬取网页数据时发现,有的网站get请求时里面的参数有中文的话在url中显示的%CB%D5%D6%DD开头的字符,在python中调用request模块时,发现字符转换的不对,导致访问步到正确的内容。同时也发现如果在request的response里面的text本中含有的中问的时候会乱码。本文基于网上搜到办法及自身实践给出爬取网页时乱码问题的解决方案。1、如何查看request模块访问网页时的url?需要获取的网页链接为:https://www.ip138.com/post/search原创 2021-05-31 15:56:29 · 3190 阅读 · 0 评论 -
python实现爬取网页将特定信息存入excel
python爬虫爬取网页将特定信息存入excel背景1、最近遇到一个需要进行数据分析的项目,主要是将网页上需要的信息,进行归拢,分析。当信息量少的时候,采用复制粘贴-excel分析还比较快捷方便,当如果数据上升到几百甚至几千条时,一个一个的复制粘贴,就明显感觉效率低下,难以操作。2、之前也一直听说过python爬虫,趁着这个机会正好来实验一波。笔者几年前曾学过python,有一定的基础。需求分析:1、目的:通过python爬虫,实现批量化抓取网页中的有效信息,然后将信息,一条一条的存储到excel原创 2021-05-17 18:53:09 · 11960 阅读 · 3 评论