
小白学爬虫
文章平均质量分 56
大葱一根
这个作者很懒,什么都没留下…
展开
-
pandas数据分析
pandas关键点:1、series数据的生成和访问2、DataFrame数据生成的几种方法3、时间序列的生成和处理4、DataFrame数据的全方位访问5、DataFrame数据的规整化处理6、DataFrame数据的分组和聚合7、DataFrame数据的高效遍历8、DataFrame数据的导入和导出Series数据的生成和访问数据结构:Index(索引)Value(值)2019-01-1111.122019-01-1212.12Series数据生原创 2022-04-22 12:54:01 · 2904 阅读 · 0 评论 -
numpy的基本操作
有关numpy的基本操作numpy 有关dim shape dtype 属性有关sum函数矢量化运算创建数组函数:元素级数组函数一元函数二元函数随机变量分布数组的生成原创 2022-04-13 11:26:19 · 2594 阅读 · 0 评论 -
记一次 pycharm读取csv文件乱码问题
记一次 pycharm读取csv文件乱码问题当时在爬取信息的时候 直接 save(‘文件名’)保存了,如果加上编码格式的话就不会出现乱码问题了由于不可能再重新爬取一遍,所以可以改变文件的编码格式我的问题如下:解决办法:用excel打开 文件-- 另存为 填入文件名选取格式 utf-8图一图二结果如下:解决了...原创 2022-04-11 12:51:57 · 2243 阅读 · 0 评论 -
Matplotlib的基本操作
基本概念:1、Figure 窗口图2、Axes 子图3、 Axis X轴4、Lable5、Legend(图例)6、title(标题)基本操作折线图一个图方式一import matplotlib.pyplot as pltimport numpy as np# 方式一x=[1,2,3,4]y=[10,20,30,40]# 方式二# x=np.arange(0,5,0.1) # x轴从0 到 5 间隔是0.1 一个点# y=np.sin(x) # y轴原创 2022-04-07 21:42:10 · 288 阅读 · 0 评论 -
数据可视化相关概念
什么是数据可视化?数据可视化:将抽象的科学或者上特数据,用图像表示出来,帮助理解数据意义的过程。通常会在进行数据分析的过程中大量的使用。为什么进行数据可视化?数据可视化提高了数据沟通的效率。1、传递信息更高效人脑对于视觉信息的处理速度要比书面快,可视化的数据结果更具有理解性,因此传递 更高效。2、信息更加立体可以显示数据的多样性,多角度查看数据的本质,数据信息更加立体。3、大脑记忆能力的限制在进行理解和学习的任务的时候,图文一起能够帮助读者更好的理解索要学习的内容,图像更容易理解,更有趣原创 2022-04-06 16:16:55 · 799 阅读 · 0 评论 -
python有关excel的相关操作
excel读取文件基本操作有关于cell 表格中的一个格子cell数据类型excel的写入excel 文件的编辑excel文件的写入excel 文件写入原创 2022-03-28 12:54:37 · 1845 阅读 · 0 评论 -
xlrd-1.2.0 解决版本问题
xlrd-1.2.0 解决版本问题安装xlrd_compdoc_commented 一样解决这个问题代码示例:import xlrd_compdoc_commentedworkbook = xlrd_compdoc_commented.open_workbook("成绩表.xlsx")#获取所有的sheet名字print(workbook.sheet_names())结果:...原创 2022-03-27 20:41:35 · 1640 阅读 · 0 评论 -
csv文件读取
csv文件读取文章目录csv文件读取第一种方式:列表第二种方式:字典CSV文件写入第一种方式:列表第二种方式:字典第一种方式:列表示例:import csvwith open("stock.csv",'r',encoding='GBK') as fp: reader=csv.reader(fp) for x in reader: print(x)打印所有:注意:如果想要打印某一项则 用 print(x[3]) 打印第三列的所有第二种方式:字典wi原创 2022-03-27 10:02:11 · 5676 阅读 · 0 评论 -
正则表达式爬取网页
正则表达式什么是正则表达式?单字符匹配:多字符匹配:小案例开始 结束 贪婪 非贪婪转义字符和原生字符串分组re模块常用函数爬虫赶集网原创 2022-03-26 09:48:16 · 1765 阅读 · 0 评论 -
爬虫网络请求urllib和request库的使用
1、urllib库(python内置库)urlopen函数创建一个表示远程的url的类文件对象,然后像本地文件一样操作这个类文件对象来获取远程数据url: 请求url(网址)data:请求的data,如果设置了这个值。那么将变成post请求返回值:返回值是一个对象from urllib import requestresp = request.urlopen('https://www.sogou.com/')# print(resp.read())#读取数据# print(resp.re原创 2022-01-29 19:28:09 · 2347 阅读 · 0 评论 -
爬虫入门基本知识
文章目录1、什么是爬虫?2、常见的的数据获取形式3、爬虫分类4、爬虫的流程5、url的详解6、 常见的请求头参数7、 常用的请求方法8、常见的响应状态码1、什么是爬虫?爬虫可以帮助我们在互联网上自动的获取数据和信息,本质是一段程序 2、常见的的数据获取形式1、 问卷调查2、购买3、网上收集(爬虫)3、爬虫分类一般分为两类通用爬虫、聚焦爬虫1、通用爬虫:准守robots协议的爬虫,通常指搜索引擎2、针对特定网站爬虫,无视robots协议,一般在获取网站数据时用的爬虫就是聚焦爬虫4、原创 2022-01-27 12:37:50 · 2444 阅读 · 0 评论