这里采用一个简单的网站,儿童睡前小故事:
http://www.tom61.com/ertongwenxue/shuiqiangushi/index.html
内容如下:
一、爬取小故事的标题及详情链接,作为数据来源
使用xpath抓取所有的小故事标题及详情链接:
代码如下:
这里只爬取一页数据作为参考
import json
import requests
from lxml import etree
from fake_useragent import UserAgent
def request_html(url,headers,article_list=[]):
response = requests.get(url,headers=headers).content.decode('utf-8')
tree = etree.HTML(response)
dd_list = tree.xpath('//div[@id="Mhead2_0"]//dd')
# print(len(dd_list))
for dd in dd_list:
# 标题
title = dd.xpath('./a/text()')[0]
print(title)
# 详情url
title_url = dd.xpath('./a/@href')[0]
href = 'http://www.tom61.com' + title_url
article_list.append(
dict(title=title,title_url=href)
)
# 列表转化为json字符串
list_json = json.dumps(article_list,ensure_ascii=False)
with open('story.json','w',encoding='utf-8')as fp:
fp.write