使用python网络爬虫爬取新浪新闻(一)

本文是作者初次尝试网络爬虫的记录,主要使用Python和相关库如requests、BeautifulSoup4来爬取新浪新闻。首先介绍了环境配置,包括Python 3.6、Anaconda的安装以及requests和BeautifulSoup4等套件的安装。接着,通过Jupyter Notebook作为编辑器,展示了如何获取HTML文档并定位到目标内容,特别提到了利用浏览器开发者工具定位class为blk12的元素。最后,展示了如何从HTML中提取所需文本。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

使用python网络爬虫爬取新浪新闻

第一次写博客,感觉有点不太习惯!不知道怎么突然就想学学爬虫了,然后就用了一天的时间,跟着教程写了这个爬虫,!不说废话了,我将我从教程上学习的东西整个写下来吧,从头开始:

首先,运行环境为:python3.6
推荐安装anaconda,因为安装套件时会更容易
官网下载地址:https://www.anaconda.com/download/

安装完anaconda后,接下来安装一些套件
requests套件:网络资源(URLs)拮取套件,可以使用REST操作(POST,PUT,GET DELETE)存取网络资源
安装方法 : 使用 pip install requests 命令进行安装
安装步骤:

BeautifulSoup4套件:是一个可以从HTML或XML文件中提取数据的Python库,它可以让你帮助你对提取的文档进行查找等等操作。
安装方法: 使用 pip install BeautifulSoup4 命令进行

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值