- 博客(4)
- 收藏
- 关注
原创 将爬取的电影数据存入Mysql数据库,并构建web页面
表中共有六个字段,其中有五个字段是我们需要爬取的数据,而id字段是我们人为添加的主键,用来作为数据的唯一标识,并且设置为auto_increment,能够随着数据行的增加而增加。运行代码的前提是你的本地数据库中一定要有一个叫做scrape的数据库,并且其中有一个叫做tt的数据表,而且字段名要完全和题目中一致才可以,否则是运行不起来的哟。在app.py的同级目录下,我们要创建一个文件夹,名字叫做:appz,内部有一个叫做templates的文件集,里面存放着一个html模板:film.html。
2024-12-17 22:45:44
434
原创 pandas工作日志
因为工作中经常会遇到使用excel表的场景,excel适合处理逻辑简单,数据量较小的场景。有些复杂场景,excel很难处理,所以我们会使用python的第三方库pandas来进行数据处理操作,pandas的功能超级强大,内置的很多属性和方法也都非常全面,但是不能为了学习而学习,一定是有目的地去学习。如果只是按部就班地去学pandas,花了几个月时间把pandas的所有用法都学会了,但是工作中用不到,很快就忘了。所以最好的学习方法应该是:1.先学个基础,了解能干什么。2.根据需求去学相应的细分内容。
2024-12-16 22:14:23
131
原创 爬取《肖申克的救赎》豆瓣影评5000条——基于自动化爬虫工具
既然这个按钮没有被展开,自然也就提取不到对应的元素了,这就说的通了,所以我怀疑是这条评论前面仍然有一个包含‘展开’内容的按钮,于是我开始在页面源代码里查找‘展开’文本,我本来以为可能是个按钮,但是万万没想到,竟然是前一条影评中的文本中有“展开”这两个字,怪不得我的第五条评论没有被展开呢,原来是去点击文本元素去了。写完代码之后,准备美滋滋的去执行程序了,但是每次执行到第五个循环时,代码总会报错,说没有查找到相关元素,我打开浏览器一开,结果第五条内容也没展开啊。好,以上就是我在爬取数据的时候遇到的一些坑。
2024-11-28 11:38:19
1389
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人