Python入门——爬取pubmed文献做分析

最新推荐文章于 2025-05-24 23:47:29 发布

YunMo_SixYear

最新推荐文章于 2025-05-24 23:47:29 发布

阅读量2.8k

点赞数 3

分类专栏：自然语言处理文章标签： python 开发语言 pycharm

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_42710807/article/details/125222844

版权

自然语言处理专栏收录该内容

2 篇文章

订阅专栏

问题描述：

需要爬取BVDV相关文献做研究，主要使用参数有title，pmid，abstract。
由于有些文章没有abstract，导致爬取失败。

错误代码：

Traceback (most recent call last):
File “E:////master/pythontest.py", line 106, in
main()
File "E:////master/pythontest.py", line 88, in main
parserPmidHtmlText(html, pmid)
File "E:///****/****master/pythontest.py”, line 49, in parserPmidHtmlText
abstractTag = abstractTag[0].find_all(‘p’)
IndexError: list index out of range

问题分析：

虽然提示数组下标越界，但是实际上你看倒数第二行错误，在find_all方法调用的时候仅搜索

标签，是不对的，我们返回原网页去对比，发现没有abstract的页面使用的是标签，所以我们可以在这里用xpath方法做一个判断，或者在首页选定规则。解决办法如下：

解决办法1：

采用xpath做判断。
（时间有限，暂时搁置）

解决办法2：

在对应选项上勾选，在爬取页面上写增加一个拼接字段。
原字段：

https://pubmed.ncbi.nlm.nih.gov/?term=BCV&filter=simsearch3.fft&page=2
初始网站+搜索字段+（锁定字段）+页码

在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。