视频地址:
http://study.163.com/course/courseLearn.htm?courseId=1004832029#/learn/video?lessonId=1050367257&courseId=1004832029
1.HTML文件的结构
html文档由html元素组成,html元素包括:标签、属性、内容。标签包括起始标签和结束标签。html元素可以嵌套,如最外层的元素即由和所定义,次外层通常为head和body。只有在body部分定义的内容才在浏览器中是可见的。在浏览器通常可以用查看源代码的方式看到网页对应的html文件内容。
2.利用、BeatifulSoup解析html
'根据目标信息解析html文档'
import requests
from bs4 import BeautifulSoup#将字符串转换为Python对象
url = 'http://www.runoob.com/html/html-tutorial.html'
r= requests.get(url)
html=r.text.encode(r.encoding).decode()
soup =BeautifulSoup(html,'lxml')#html放到beatifulsoup对象中
html#字符串
soup #对象,对象是有属性的
soup.head
soup.body
soup.body.h1#主标题
soup.findAll('h2')#查找所以次标题
存储目标信息:一般把爬取数据存在Excel表格,csv,txt文件或数据库中
'存储目标信息'
import requests
from bs4 import BeautifulSoup#将字符串转换为Python对象
import pandas as pd
url = 'http://www.runoob.com/html/html-tutorial.html'
r= requests.get(url)
html=r.text.encode(r.encoding).decode()
soup =BeautifulSoup(html,'lxml')#html放到beatifulsoup对象中
l=[x.text for x in soup.findAll('h2')]#提取次标题中所有的文字
df = pd.DataFrame(l,columns =[url])#将l变为DataFrame文件,列名为URL
df.to_excel('爬虫.xlsm')#写入表格中
df.to_csv('爬虫.csv')
df.iloc[2,0]