
python
文章平均质量分 64
W~J~L
一名大数据小白
展开
-
将爬取的数据存为json格式
将爬取的数据存为json格式,你会吗?之前我都是将数据爬取后存为txt、csv或者excel,json格式几乎没有。于是乎我就想试一下,如何将爬取的数据存为json文件。于是我便查了一下使用json格式的好处,不查不知道,一查吓一跳。好家伙呀,json格式的特点和优势可真不少呢。json格式的特点和优势大致为:JSON数据清晰、易于读写JSON有很多工具类支持它的转换JSON在所有主流浏览器有很好的支持JSON在传输时数据量更小、传输更快JSON在JS中有天然的语言优势(因为它是标准的子集合)原创 2022-03-13 14:41:41 · 6803 阅读 · 3 评论 -
爬取《中国医生》影评分析可视化
暑假在家闲着,因为疫情复发了,就只能待在家。在网上看着词云图挺好玩的,然后自己就想着整一个中国医生的影评词云图玩玩。好家伙,就这样开始了一段“奇妙的旅程”。首先实现写爬虫来将自己想要的数据爬取下来。网址:豆瓣电影写爬虫不是什么问题,因为写过很多了,这其中唯一遇到的问题就是写入csv文件时出了点问题,就是我将csv写入操作写在了爬虫里面,但是无论我怎么调试,每一次都会将表头再次写入,这样就会影响之后的步骤。于是几经调试,我将表头单独在外面写了一次,在内部的时候就不用再写表头。诶,就解决了。爬取后是下原创 2021-08-13 21:17:16 · 406 阅读 · 1 评论 -
csv、excel等文件相关操作
分享自己关于学习文件操作的相关内容。目录open函数csv 操作Excel文件解析json模块open函数之前一直是这样写的:f = open('./data.txt',mode='a',encoding='utf8')f.write("hello")f.writelines(['xiaoming','xiaowang'])f.write('小明与小汪')# 文件读取lines = f.read()print(lines)lines = f.readlines()print(line原创 2021-08-13 17:41:34 · 249 阅读 · 0 评论 -
matplotlib库的使用
matplotlib库的使用继续分享自己的学习历程!概念什么的就不说了,网上资料很多,那就直接开始说要点吧!主要是四种绘图:折线图、散点图、直方图、条形图以及饼图。以一个实例来说我觉得效果会更好。那就随便举个列子吧。导入就用pip命令就好了,或者是直接在pycharm里输入from matplotlib import pyplot as plt如果没装这个库的话,在matplotlip下面会显示红线,将箭头放上去然后安装这个库就ok了。导入方式:from matplotlib impor原创 2021-08-12 23:32:51 · 822 阅读 · 0 评论 -
python批量处理txt文本,获取指定内容
分享分享分享那就是批量处理txt文本啦,获取里面指定内容,然后进行保存。刚开始拿到,发现无从下手。整理了思路后发现还是可以做的,嘿嘿!首先文本里的内容是这样的:要取的内容就是最后的那些数字。还好每个文档的格式都是规范的,其实不规范也是差不多的。因为我用的是正则来匹配,如下图:然后就是开始写代码啦!这里就直接上代码了!因为注释全在代码上啦!import osimport repath = "D:\\大一下学期\\课程\\new\\" # 找到txt所在位置files = os.list原创 2021-05-30 16:02:41 · 10069 阅读 · 1 评论 -
Python爬虫爬取信息
Python爬虫爬取指定信息和我的上一篇文章相同,记录自己学习过程以及经验感受分享。上一篇文章内容是爬取指定图片,那么这一片文章就是爬取自己想要的文字部分信息。这个有什么用呢?在之后可以将爬取好的信息(数据量庞大的)进行清洗整理后,在Hadoop上进行数据分析,最后再可视化。接下来也是分享几个网站,用实际应用来说明解决问题。网站1: 京东女鞋需要用到的库和上一篇文章差不多还是requests和BeautifulSoup。前五个步骤和我上一篇文章是一样的,因此可以参考一下我的上一篇文章Python原创 2021-05-03 19:23:22 · 1873 阅读 · 0 评论 -
Python爬虫爬取图片
**Python爬虫爬取网站指定图片(多个网站综合经验结论分享)**我想以这篇文章来记录自己学习过程以及经验感受,因为我也是个初学者。接下来我将分享几个我爬取过的图片网站,给大家们分享下自己的方法经验。嘿嘿!我选了以下两个具有代表性的网站进行分享网站1: 摄图网第一步:导入需要用到的库:requests、BeautifulSoup和timeimport requestsfrom bs4 import BeautifulSoupimport time第二步:伪装自己的爬虫因为很多网站都原创 2021-05-03 02:43:02 · 20593 阅读 · 6 评论 -
python小白的word转excel
大概流程为:一、首先导入 docx库以及xlwt库二、需要用到的文档的名称三、设置一个函数来写入excel,转为可识别通用的“utf8”,然后创建一个表格来将文档里的内容写入到表里去四、利用for循坏来设置表里多少个为一行五、在最后设置表的保存路径以及提示是否创建成功import docximport xlwtdocFile = "青年大学习.docx"def write_excel(path): doc = docx.Document(docFile) workboo原创 2021-02-04 20:48:50 · 2208 阅读 · 4 评论 -
python:在指定范围内按学号随机生成座位顺序,并分行输出
python:在指定范围内按学号随机生成座位顺序,并分行输出我是一名大一新生,也是python小白。专业课让我接触到了python,一下就迷住了。对于各种库,各种函数都贼感兴趣。这次因为座位需要随机分布,我就第一时间想到了用python来实现。以下便是我想到的方法,因为随机,所以用random来实现。再用到sample函数来在范围里指定随机多少个数,再转为字符串。因为要分行打印,所以再利用切片来做到分行。import randomStudentID = range(1, 54)a = rand原创 2021-02-04 19:36:00 · 2613 阅读 · 1 评论