本文利用urllib在python3.7的环境下实现豆瓣页面的爬取!
用到的包有urllib与re两个模块,具体实现如下!
import urllib.request
import re
import ssl
url = "https://read.douban.com/provider/all"
def doubanread(url):
ssl._create_default_https_context = ssl._create_unverified_context
data = urllib.request.urlopen(url).read()
data = data.decode("utf-8")
pat = '<div class="name">(.*?)</div>'
mydata = re.compile(pat).findall(data)
return mydata
def writetxt(mydata):
fw = open("test.txt","w")
for i in range(0,len(mydata)):
fw.write(mydata[i] + "\n")
fw.close()
if __name__ == '__main__':
datatest = doubanread(url)
writetxt(datatest)
本文主要实现爬取豆瓣阅读页面的出版社信息的爬取,将所有出版社写入到一个txt文件并保存到本地!
下面是另一个版本的抓取,用于抓取豆瓣文学部分的数据,包括数名、作者、出版社、出版时间、售价、评分等内容!
本次抓取利用requests库抓取网页代码;Beautiful解析网页数据;由于此版本可以用来抓取多页数据,为防止爬虫被禁,加入时间,引入time模块;数据最终保存在csv中,在抓取的过程中将数据保存在列表中,最终利用pandas,实现数据形式的转换,保存在csv文件中!
还