不太懂网页上的专业术语。。。
1.首先查看页面源代码:查看要爬取的数据是什么样的,在哪个标签下,能不能用xpath或者bs4取出来。
2.f12此页面,刷新查看页面响应时,能看到的信息。主要是消息头里的请求网址,请求方法,host,user-agent,cookie以及参数里的数据。及时查看响应,看出现的页面是否为自己想要的。
3.如果是post方法:要记录参数里的数据:postdata={},字典型写入看到的数据。如果是get方法,查看参数时,可以是params={},同样写入参数。
要爬取的页面网址就是请求网址。
4.写爬虫语句:
session=requests.session()
url=""
user_agent=""
headers={'User-Agent':user_agent,'Host':''}
#必要的参数也可以写上
postdata={}
params={}
html=session.post(url=url,headers=headers,cookies=cookies,data=postdata)
text=html.text
print text
html=session.get(url=url,headers=headers,cookies=cookies,params=params)
5.分析获取的网页,获取其中的数据。主要用了requests+xpath的组合,比较容易。实在不行就用正则表达式。
Tip:xpath 要获取标签中某属性值,比如a标签,可以用:x=tree.xpath('//a[@href=""]/@href')。
要获取标签之中的文本,可以用:x=tree.xpath('//a[@href=""]/text()')
6.数据存入数据库
简单的可以用pymssql模块
conn=pymssql.connect(数据库参数)
Tip:sql语句:要注意变量的应用,可以用%s代替。
网页爬虫实战指南
本文介绍如何通过分析网页源代码及请求方式来实现网页爬虫的编写,包括使用requests库发送请求、解析响应数据,以及如何利用XPath提取所需信息,并最终将数据存入数据库的方法。
1166

被折叠的 条评论
为什么被折叠?



