- 博客(5)
- 收藏
- 关注
原创 从pdf中提取数据_中国电力设备
"邮箱": r"(?:邮\s*箱|邮\s*件|E-mail):\s*(.*?经过观察,文件中未提到邮箱,邮件,E-mail等信息,即没有邮箱。邮箱有可能是邮箱、邮件、E-mail,所以代码中的正则表达式用。不止邮箱,其他的字段中也可能有空格,都用 \s* 来进行匹配。再者邮箱二字之间可能有空格用 \s* 来进行匹配。保存的时候带着pdf的文件名,方便查找。全文匹配,因为有的可能不是在最后一页。比如16.pdf这个文件的邮箱未找到。保存到execl表格中,看着方便。邮箱或邮件或E-mail。
2024-08-19 21:33:10
196
原创 爬虫实战_中国电力设备
通过观察数据就在页面中使用request对发送请求接着使用xpath提取数据得到标题,链接,招标编号,招标方式,报名截止时间,发布时间在浏览器的网站框打开上面得到的链接,使用xpath提取出src继续在网站框中输入刚刚得到的url通过观察下面这个像pdf文件对他发起请求携带以下参数通过观察id就是提取出id保存为pdf。
2024-08-16 15:34:57
575
原创 全球速卖通数据爬取
使用自动化工具打开浏览器,手动登录账号获取cookie,只有登录账号,才会出现下面这个界面没账号的可使用代码中的cookie,control.py文件中有,但是使用这个cookie,在爬取的过程中会遇到反爬滑块验证码,就没办法跳过了,只能等待一段时间,时间可能很长,也可能很短。
2024-08-15 20:38:56
2289
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人