使用python网络爬虫爬取新浪新闻
第一次写博客,感觉有点不太习惯!不知道怎么突然就想学学爬虫了,然后就用了一天的时间,跟着教程写了这个爬虫,!不说废话了,我将我从教程上学习的东西整个写下来吧,从头开始:
首先,运行环境为:python3.6
推荐安装anaconda,因为安装套件时会更容易
官网下载地址:https://www.anaconda.com/download/
安装完anaconda后,接下来安装一些套件
requests套件:网络资源(URLs)拮取套件,可以使用REST操作(POST,PUT,GET DELETE)存取网络资源
安装方法 : 使用 pip install requests 命令进行安装
安装步骤:
BeautifulSoup4套件:是一个可以从HTML或XML文件中提取数据的Python库,它可以让你帮助你对提取的文档进行查找等等操作。
安装方法: 使用 pip install BeautifulSoup4 命令进行安装
安装步骤: 同上
然后就是安装编辑器
Jupyter notebook:一个交互式笔记本,支持运行 40 多种编程语言,反正都说它挺好的
安装方法: 使用 pip install jupyter 命令进行安装
安装步骤: 同上
接下来打开编辑器
打开方法

本文是作者初次尝试网络爬虫的记录,主要使用Python和相关库如requests、BeautifulSoup4来爬取新浪新闻。首先介绍了环境配置,包括Python 3.6、Anaconda的安装以及requests和BeautifulSoup4等套件的安装。接着,通过Jupyter Notebook作为编辑器,展示了如何获取HTML文档并定位到目标内容,特别提到了利用浏览器开发者工具定位class为blk12的元素。最后,展示了如何从HTML中提取所需文本。
最低0.47元/天 解锁文章
&spm=1001.2101.3001.5002&articleId=78885830&d=1&t=3&u=023eb87b052f41f7911dd8421c222d22)
5464





