自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

爬虫工程师

人很话不多,爬虫我最爱

  • 博客(10)
  • 收藏
  • 关注

原创 手把手带你安装python,2024全网最详安装教程

如果此时输入python显示:‘python’不是内部或外部命令,也不是可运行程序,说明没有添加到环境变量,此时我们需要将刚下载的python路径添加到PATH环境变量即可,这里不做讲解至此,Python就安装成功了!!!!我们已经成功的迈出了第一步。

2024-11-07 22:24:59 442

原创 《人民日报》数据爬取的艺术与实践

通过上述代码,我们实现了一个完整的《人民日报》数据爬取系统。这个系统不仅能够自动化地获取指定日期范围内的文章,还具备强大的错误处理和重试机制,确保数据的完整性和可靠性。希望本文能够为读者提供有价值的参考,激发更多关于数据爬取和处理的探索与创新。

2024-10-29 10:34:34 529

原创 ddddocr滑块验证码:一场技术与艺术的融合

广东信用网是一个公开的政府网站,提供了大量的行政处罚信息。这些信息对于研究政府监管、企业合规等方面具有重要意义。我们的目标是通过Python爬虫,自动化地抓取这些信息,并进行解析和存储。通过上述代码,我们实现了一个完整的爬虫项目,能够自动化地从广东信用网抓取行政处罚信息。这个项目不仅展示了如何处理滑块验证码,还展示了如何解析复杂的HTML结构,以及如何处理请求和解析过程中的异常。希望这篇文章能帮助你更好地理解和掌握Python爬虫技术,为你的数据科学之旅增添一份力量。

2024-10-25 14:17:04 798

原创 爬虫etree.tostring()的坑

最近在爬虫的时间需要保存一些带有标签的前端信息,就使用了lxml的etree.tostring()方法,但是使用该方法的时候总是会出现一些其他没有选择的标签信息, 如图所示。我们将该标签信息进行前端展示效果如下,可以看到这里多了一些我们所不需要的标签。处理方法: 添加应该method参数,其值为html。我们使用etree.tostring()转换该标签。这样就可以得到我们所想要的效果啦。

2024-08-28 14:23:45 296

原创 文件类型快速识别:os.path.splitext()

os.path.splitext()的使用

2024-07-26 14:08:58 164

原创 总结xpath中following和following-sibling的区别

本文介绍了xpath中的following和following-sibling的使用方法

2024-07-19 15:19:24 973

原创 使用DrissionPage自动化登录淘宝

滑块验证码的解决(这里只放部分代码),存在验证失败重新验证的情况(自行解决)判断是否存在滑块验证码:在输入账号和密码之后等待几秒,等加载完再进行判断。搜索数据 ,这里我们随便输入关键字,点击搜索时发现自动跳转到了登录界面。使用drassionpage进行自动化登录。如果存在验证码则解决验证码,没有直接点击登录。淘宝的反爬机制就不多说了,这里直接上干货。登录完成,开始采集数据。定位账号和密码的位置。

2024-07-11 16:41:38 1574 2

原创 requests爬虫SSLError: HTTPSConnectionPool(host=‘xxx‘, port=443)解决思路

Caused by SSLError(SSLError(1, '[SSL: BAD_ECPOINT] bad ecpoint (_ssl.c:1076)'))) in xxxx

2024-06-18 16:13:41 597 1

原创 MongoDB数据库基础操作

1、查看当前数据库的版本:db.version()2、查看当前所在的数据库:db(刚进去默认是test数据库)3、查看当前数据库的连接地址:db.getMongo()4、查看所有数据库:show databases / show dbs注:如果数据库中没有数据则不显示该数据库(例如默认进入的test数据库)5、切换数据库:use 数据库名称注:如果切换的数据库不存在,则先创建再切换6、创建集合:db.createCollection(‘集合名’)7、查看当前数据库的所有集合:s

2021-01-23 21:53:08 362

原创 redis数据库之字符串操作

我们知道redis数据库一共有16个库(0-15),默认选择的是第一个(0)库.(一)redis中有些操作与数据类型无关,如以下几种keys * :查看数据库中的所有键名expire 键名 秒数 :给指定键名设置过期时间persist 键名 :移除过期时间select 库名 : 选择对应的数据库flushd:删除当前数据库的所有数据fulshall:清空所有数据库中的数据(二):redis数据库中的字符串操作(1)set 键 值 : 设置一个键值对,返回OK代表设置成功,s

2021-01-21 13:03:50 295

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除