Python爬虫笔记（2）根据目标信息解析数据和存储目标信息

最新推荐文章于 2024-03-01 23:47:59 发布

原创最新推荐文章于 2024-03-01 23:47:59 发布 · 230 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#学习笔记

Python爬虫专栏收录该内容

6 篇文章

订阅专栏

本文介绍了HTML文件的基本结构，包括标签、属性和内容等组成部分，并通过实例演示了如何使用Python的requests和BeautifulSoup库来抓取和解析HTML文档。

视频地址：
http://study.163.com/course/courseLearn.htm?courseId=1004832029#/learn/video?lessonId=1050367257&courseId=1004832029
1.HTML文件的结构
html文档由html元素组成，html元素包括：标签、属性、内容。标签包括起始标签和结束标签。html元素可以嵌套，如最外层的元素即由和所定义，次外层通常为head和body。只有在body部分定义的内容才在浏览器中是可见的。在浏览器通常可以用查看源代码的方式看到网页对应的html文件内容。

2.利用、BeatifulSoup解析html

'根据目标信息解析html文档'
import requests
from bs4 import BeautifulSoup#将字符串转换为Python对象
url = 'http://www.runoob.com/html/html-tutorial.html'
r= requests.get(url)
html=r.text.encode(r.encoding).decode()
soup =BeautifulSoup(html,'lxml')#html放到beatifulsoup对象中

html#字符串
soup #对象，对象是有属性的
soup.head
soup.body
soup.body.h1#主标题
soup.findAll('h2')#查找所以次标题

存储目标信息：一般把爬取数据存在Excel表格，csv,txt文件或数据库中

'存储目标信息'
import requests
from bs4 import BeautifulSoup#将字符串转换为Python对象
import pandas as pd
url = 'http://www.runoob.com/html/html-tutorial.html'
r= requests.get(url)
html=r.text.encode(r.encoding).decode()
soup =BeautifulSoup(html,'lxml')#html放到beatifulsoup对象中
l=[x.text for x in soup.findAll('h2')]#提取次标题中所有的文字
df = pd.DataFrame(l,columns =[url])#将l变为DataFrame文件，列名为URL
df.to_excel('爬虫.xlsm')#写入表格中
df.to_csv('爬虫.csv')
df.iloc[2,0]