爬虫学习笔记

本文介绍了爬虫的基本原理,包括爬取网页、提取信息、保存数据和自动化程序四个步骤。以东方财富网为例,讲解如何使用Python的requests和BeautifulSoup等库抓取和解析股票数据,最后将数据保存为Excel文件。

爬虫学习笔记

爬虫的基本原理,分为4个步骤。

爬虫概述

简单来说,爬虫就是获取网页并提取和保存信息的自动化程序。

1.1 爬取网页

爬虫首先要做的工作就是获取网页,这里就是获取网页的源代码。源代码包含了网页的部分有用信息,所以只要把源代码获取下载,就可以从中提取想要的信息。可以使用urllib、requests来爬取页面

例:爬取东方财富网

东方财富网的行情中心页面包含了所有股票信息。在左侧的菜单栏中包含了沪深个股、沪深指数等所有股票数据。每个板块的股票数据被隐藏在不同的菜单里。

点击“沪深个股”按钮,对应的股票数据就被查询出来了。上方的选项卡中包含了不同板块的板块:沪深A股、上证A股、深证A股、新股、中小板...

 

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值