内容提要:
数据爬取
数据解析
数据存入MySQL数据库
一、数据爬取
爬取的网页:https://movie.douban.com/top250
爬虫基本原理:
1.模拟http请求,请求发送到目标网址
a urllib.request openurl(url)
b Requests 定制header 反爬虫
2.获取html
3数据解析----从海量数据中提取我们需要的部分
4数据存储-----存储到文件,打印输出,数据库
该博客介绍了使用Python进行爬虫的相关内容。以豆瓣Top250网页为例,阐述了爬虫基本原理,包括模拟http请求、获取html,还涉及数据解析,即从海量数据中提取所需部分,最后将数据存入MySQL数据库。
内容提要:
数据爬取
数据解析
数据存入MySQL数据库
一、数据爬取
爬取的网页:https://movie.douban.com/top250
爬虫基本原理:
1.模拟http请求,请求发送到目标网址
a urllib.request openurl(url)
b Requests 定制header 反爬虫
2.获取html
3数据解析----从海量数据中提取我们需要的部分
4数据存储-----存储到文件,打印输出,数据库
2584

被折叠的 条评论
为什么被折叠?