
python
Yooyi_xin
记录学习中遇到的坑
展开
-
Python将csv中每一行的数据转化为字典
第一种方法:使用pandas模块import pandas as pd# 第一种情况""" header=0 是默认值,将默认将csv文件的第一行作为表头文件"""df = pd.read_csv("统一开小灶.csv", header=0)for line in df.values: dic = {} for item, data in zip(df, line.tolist()): dic[item] = data print(dic) # 第二种情况"""原创 2022-05-21 14:06:59 · 5579 阅读 · 0 评论 -
Python依次读取Excel文件中的Sheet
利用pandas依次读取excel表格中每个sheet的数据,并按照行进行打印,输出格式为列表主要解决以下问题:读取Excel对每个sheet中的数据单独读取按照行对每一条数据进行读取将读取的数据按照列表格式进行输出import pandas as pddf = pd.read_excel("ceshi.xlsx",sheet_name=None,header=None)for sheet in df: print(sheet) # 每个sheet的名称 for item i原创 2022-05-17 13:34:17 · 4202 阅读 · 1 评论 -
python中转义符导致的文本保存失败
问题描述在字符串中出现反斜杠\,通常会被识别为转义字符,如\n会被识别为换行,如果直接将含有反斜杠的字符串进行保存,可能会造成因为编码问题导致文件保存失败a = '\ud83d'如果对上述字符串直接保存为txt文件,那么无论使用何种编码,都会报编码失败的错误解决办法常规办法如果是将该字符串进行保存,有一个直接方式,即告诉python该字符串中将反斜杠作为字符进行识别,而非转义字符。解决方法有两种方式:方式一:通过添加转义字符a = '\\ud83d'方式二:通过对字符串进行标注a原创 2022-04-11 19:42:50 · 1238 阅读 · 0 评论 -
基础爬虫常用代码块
整理一些平时常用的代码块。seleniumfrom selenium.webdriver import Chromefrom selenium.webdriver.chrome.options import Optionsoption = Options()option.add_argument('--disable-blink-features=AutomationControlled') # 关闭网页对自动化浏览器的监测option.add_argument('--disable-gp原创 2022-01-14 21:52:53 · 1053 阅读 · 0 评论 -
低成本解决因ip被禁导致的爬虫程序中断
问题描述网站的反爬措施越来越严格,各种反反爬措施也不断发展,最有效的反爬措施无异于是通过代理ip池的方法。但是对于学习者或者数据量并不大的同学来说,购买或者维护一个ip池的成本并不低。由此产生了一个想法,作为迫不得已的代替方法。解决思路现在宽带拨号使用的都是动态ip,每次重新拨号,就可以获得一个新的ip,这样就可以勉强解决上述问题。头铁的解决思路:- 我将要爬取的链接用列表进行存储,- 然后大概判断一下几次请求之后就会被封掉(如:单个ip只能连续爬取20次)- 然后以20个为一组,将列表进行原创 2021-08-30 13:50:29 · 701 阅读 · 0 评论 -
python异步协程爬虫报错:【aiohttp.client_exceptions:ServerDisconnectedError:Server disconnected】的初步解决办法
背景描述:我刚开始接触爬虫,看网上教程开始一点点学习,所有的掌握知识点掌握比较浅,如果有更好的方法欢迎评论分享。初始爬虫非常简单:对一个网页中的数据列表进行爬取,网页返回的格式也非常简单是一个字典形式,直接用.json()保存成字典就可以直接存取。刚开始接触异步协程,做完联系之后,尝试把原来的爬虫进行改造,由此出现报错。初始代码:async def download_page(url): async with aiohttp.ClientSession() as session: async原创 2021-08-14 12:47:41 · 15567 阅读 · 23 评论