Python爬虫笔记(2)根据目标信息解析数据和存储目标信息

本文介绍了HTML文件的基本结构,包括标签、属性和内容等组成部分,并通过实例演示了如何使用Python的requests和BeautifulSoup库来抓取和解析HTML文档。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

视频地址:
http://study.163.com/course/courseLearn.htm?courseId=1004832029#/learn/video?lessonId=1050367257&courseId=1004832029
1.HTML文件的结构
html文档由html元素组成,html元素包括:标签、属性、内容。标签包括起始标签和结束标签。html元素可以嵌套,如最外层的元素即由和所定义,次外层通常为head和body。只有在body部分定义的内容才在浏览器中是可见的。在浏览器通常可以用查看源代码的方式看到网页对应的html文件内容。

2.利用、BeatifulSoup解析html

'根据目标信息解析html文档'
import requests
from bs4 import BeautifulSoup#将字符串转换为Python对象
url = 'http://www.runoob.com/html/html-tutorial.html'
r= requests.get(url)
html=r.text.encode(r.encoding).decode()
soup =BeautifulSoup(html,'lxml')#html放到beatifulsoup对象中
html#字符串
soup #对象,对象是有属性的
soup.head
soup.body
soup.body.h1#主标题
soup.findAll('h2')#查找所以次标题

存储目标信息:一般把爬取数据存在Excel表格,csv,txt文件或数据库中

'存储目标信息'
import requests
from bs4 import BeautifulSoup#将字符串转换为Python对象
import pandas as pd
url = 'http://www.runoob.com/html/html-tutorial.html'
r= requests.get(url)
html=r.text.encode(r.encoding).decode()
soup =BeautifulSoup(html,'lxml')#html放到beatifulsoup对象中
l=[x.text for x in soup.findAll('h2')]#提取次标题中所有的文字
df = pd.DataFrame(l,columns =[url])#将l变为DataFrame文件,列名为URL
df.to_excel('爬虫.xlsm')#写入表格中
df.to_csv('爬虫.csv')
df.iloc[2,0]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值