爬取豆瓣电影数据(requests,基于lxml的BeautifulSoup,json)
'''
爬虫原理。
1.模拟浏览器的行为,通过网络请求将目标网页抓取到本地。
2.使用一定的匹配规则,将目标中需要的数据提取出来,把不需要的过滤掉。
3.根据需求,把提取出来的数据存储到磁盘中(json、csv、excel、数据库)。
需要安装的库:
requests(用来做网络请求的。就跟浏览器是一样的。)
bs4(用来将请求下来的数据进行解析的。)
lxml(这个库是用来解析html和xml...
原创
2020-02-19 22:21:01 ·
524 阅读 ·
0 评论