爬虫抓取李现个人资料介绍

最新推荐文章于 2022-11-28 17:54:27 发布

李现分现

最新推荐文章于 2022-11-28 17:54:27 发布

阅读量498

点赞数

分类专栏： python 爬虫文章标签： python 爬虫

本文链接：https://blog.youkuaiyun.com/qq_47828130/article/details/117527420

版权

python 同时被 2 个专栏收录

20 篇文章

订阅专栏

爬虫

12 篇文章

订阅专栏

作者为快速了解李现，学习使用Python爬虫。先打开李现百度百科首页查看源码，分析获取主要源码，用pyquery等工具匹配信息，调用remove()方法移除爬取信息中的索引号和空格，最后将资料保存到text文本中。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

七月的现男友，可?
在这里插入图片描述
这个男人如此优秀，收割了一大批少男少女的心，为了快速了解这个男人，我耗尽心血从入门到入狱地学爬虫，只为了证明李现分现存在的价值。
首先，打开李现的百度本科首页，鼠标空白处点击右键查看源码
通过对源码进行分析，获取现哥资料介绍的主要源码
在这里插入图片描述
经过查看，发现李现资料介绍集中在

`<div class="para" label-module="para">

利用pyquery可快进行匹配，也可以通过正则，BeautifulSoup进行匹配，但个人感觉pyquery是最容易的，可能是因为菜吧！```

话不多说，上代码

import json
import requests
import time
from pyquery import PyQuery as pq
from requests.exceptions import RequestException
url='https://baike.baidu.com/item/%E6%9D%8E%E7%8E%B0/5870690?fr=aladdin'
headers={
            'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.77 Safari/537.36 Edg/91.0.864.37'
            }#请求头
response=requests.get(url,headers=headers)#发送请求获取网页
doc=pq(response.text)#对获取网页进行初始化
div=doc('.para.para')#查找所有class=para，label-module="para
print(div)

效果图如下：
在这里插入图片描述
嗯。作为一个细节控，你会发现爬出来的信息有很多索引号和空格，如何消除？
调用remove()方法可以移除节点。
索引号和空格对应网页的节点分别是<sup>节点和class="sup-anchor"的<a>节点
操作如下：

 i.find('sup').remove()#消除索引号
 i.find('.sup-anchor').remove()#消除空格

看一下效果图是不是感觉心情舒畅！
在这里插入图片描述

最后一步，将爬取下来的资料保存到text文本中

f=open('lx2.txt','w')#以写入的形式创建文件

在这里插入图片描述

完整代码如下：

import json
import requests
import time
from pyquery import PyQuery as pq
from requests.exceptions import RequestException
url='https://baike.baidu.com/item/%E6%9D%8E%E7%8E%B0/5870690?fr=aladdin'
headers={
            'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.77 Safari/537.36 Edg/91.0.864.37'
            }#请求头
response=requests.get(url,headers=headers)#发送请求获取网页
doc=pq(response.text)#对获取网页进行初始化
div=doc('.para.para').items()#查找所有class=para，label-module="para
#print(div)
f=open('lx2.txt','w')#以写入的形式创建文件
for i in div:
    i.find('sup').remove()#消除索引号
    i.find('.sup-anchor').remove()#消除空格
    a=i.text()
    print(a)
    f.write(a)
f.close()
print('True')