- 博客(10)
- 收藏
- 关注
原创 手把手带你安装python,2024全网最详安装教程
如果此时输入python显示:‘python’不是内部或外部命令,也不是可运行程序,说明没有添加到环境变量,此时我们需要将刚下载的python路径添加到PATH环境变量即可,这里不做讲解至此,Python就安装成功了!!!!我们已经成功的迈出了第一步。
2024-11-07 22:24:59
442
原创 《人民日报》数据爬取的艺术与实践
通过上述代码,我们实现了一个完整的《人民日报》数据爬取系统。这个系统不仅能够自动化地获取指定日期范围内的文章,还具备强大的错误处理和重试机制,确保数据的完整性和可靠性。希望本文能够为读者提供有价值的参考,激发更多关于数据爬取和处理的探索与创新。
2024-10-29 10:34:34
529
原创 ddddocr滑块验证码:一场技术与艺术的融合
广东信用网是一个公开的政府网站,提供了大量的行政处罚信息。这些信息对于研究政府监管、企业合规等方面具有重要意义。我们的目标是通过Python爬虫,自动化地抓取这些信息,并进行解析和存储。通过上述代码,我们实现了一个完整的爬虫项目,能够自动化地从广东信用网抓取行政处罚信息。这个项目不仅展示了如何处理滑块验证码,还展示了如何解析复杂的HTML结构,以及如何处理请求和解析过程中的异常。希望这篇文章能帮助你更好地理解和掌握Python爬虫技术,为你的数据科学之旅增添一份力量。
2024-10-25 14:17:04
798
原创 爬虫etree.tostring()的坑
最近在爬虫的时间需要保存一些带有标签的前端信息,就使用了lxml的etree.tostring()方法,但是使用该方法的时候总是会出现一些其他没有选择的标签信息, 如图所示。我们将该标签信息进行前端展示效果如下,可以看到这里多了一些我们所不需要的标签。处理方法: 添加应该method参数,其值为html。我们使用etree.tostring()转换该标签。这样就可以得到我们所想要的效果啦。
2024-08-28 14:23:45
296
原创 总结xpath中following和following-sibling的区别
本文介绍了xpath中的following和following-sibling的使用方法
2024-07-19 15:19:24
973
原创 使用DrissionPage自动化登录淘宝
滑块验证码的解决(这里只放部分代码),存在验证失败重新验证的情况(自行解决)判断是否存在滑块验证码:在输入账号和密码之后等待几秒,等加载完再进行判断。搜索数据 ,这里我们随便输入关键字,点击搜索时发现自动跳转到了登录界面。使用drassionpage进行自动化登录。如果存在验证码则解决验证码,没有直接点击登录。淘宝的反爬机制就不多说了,这里直接上干货。登录完成,开始采集数据。定位账号和密码的位置。
2024-07-11 16:41:38
1574
2
原创 requests爬虫SSLError: HTTPSConnectionPool(host=‘xxx‘, port=443)解决思路
Caused by SSLError(SSLError(1, '[SSL: BAD_ECPOINT] bad ecpoint (_ssl.c:1076)'))) in xxxx
2024-06-18 16:13:41
597
1
原创 MongoDB数据库基础操作
1、查看当前数据库的版本:db.version()2、查看当前所在的数据库:db(刚进去默认是test数据库)3、查看当前数据库的连接地址:db.getMongo()4、查看所有数据库:show databases / show dbs注:如果数据库中没有数据则不显示该数据库(例如默认进入的test数据库)5、切换数据库:use 数据库名称注:如果切换的数据库不存在,则先创建再切换6、创建集合:db.createCollection(‘集合名’)7、查看当前数据库的所有集合:s
2021-01-23 21:53:08
362
原创 redis数据库之字符串操作
我们知道redis数据库一共有16个库(0-15),默认选择的是第一个(0)库.(一)redis中有些操作与数据类型无关,如以下几种keys * :查看数据库中的所有键名expire 键名 秒数 :给指定键名设置过期时间persist 键名 :移除过期时间select 库名 : 选择对应的数据库flushd:删除当前数据库的所有数据fulshall:清空所有数据库中的数据(二):redis数据库中的字符串操作(1)set 键 值 : 设置一个键值对,返回OK代表设置成功,s
2021-01-21 13:03:50
295
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人