Guard757-优快云博客

原创从pdf中提取数据_中国电力设备

"邮箱": r"(?:邮\s*箱|邮\s*件|E-mail)：\s*(.*?经过观察，文件中未提到邮箱，邮件，E-mail等信息，即没有邮箱。邮箱有可能是邮箱、邮件、E-mail,所以代码中的正则表达式用。不止邮箱，其他的字段中也可能有空格，都用 \s* 来进行匹配。再者邮箱二字之间可能有空格用 \s* 来进行匹配。保存的时候带着pdf的文件名，方便查找。全文匹配，因为有的可能不是在最后一页。比如16.pdf这个文件的邮箱未找到。保存到execl表格中，看着方便。邮箱或邮件或E-mail。

2024-08-19 21:33:10 307

原创新片场视频下载

获取前7页的视频信息成果展示。

2024-08-16 20:49:15 1124 2

原创河北省投资项目_平台动态

使用request请求不到数据所以使用自动化工具DrissionPage提取的数据有标题，链接，发布时间和详情页信息。

2024-08-16 18:08:51 391

原创爬虫实战_中国电力设备

通过观察数据就在页面中使用request对发送请求接着使用xpath提取数据得到标题，链接，招标编号，招标方式，报名截止时间，发布时间在浏览器的网站框打开上面得到的链接，使用xpath提取出src继续在网站框中输入刚刚得到的url通过观察下面这个像pdf文件对他发起请求携带以下参数通过观察id就是提取出id保存为pdf。

2024-08-16 15:34:57 808

原创全球速卖通数据爬取

使用自动化工具打开浏览器，手动登录账号获取cookie，只有登录账号，才会出现下面这个界面没账号的可使用代码中的cookie，control.py文件中有，但是使用这个cookie，在爬取的过程中会遇到反爬滑块验证码，就没办法跳过了，只能等待一段时间，时间可能很长，也可能很短。

2024-08-15 20:38:56 2781

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 从pdf中提取数据_中国电力设备

原创 新片场视频下载

原创 河北省投资项目_平台动态

原创 爬虫实战_中国电力设备

原创 全球速卖通数据爬取

空空如也

空空如也

原创从pdf中提取数据_中国电力设备

原创新片场视频下载

原创河北省投资项目_平台动态

原创爬虫实战_中国电力设备

原创全球速卖通数据爬取