
Python
文章平均质量分 76
啊明之道
新一代信息技术的资料驿站
展开
-
网络爬虫:电影数据
1、说明:将使用Requests、Lxml和re第三方库,爬取豆瓣电影TOP250的数据,并保存到mysql数据库中2、爬取信息包括:电影名称、导演、主演、类型、制片国家、上映时间、片长和评分等;3、爬取思路:(1)网址信息及规律:https://movie.douban.com/top250https://movie.douban.com/top250?start=25https://movie.douban.com/top250?start=50(2)具体实现:(小细节待调整)D:\An原创 2021-09-25 18:07:09 · 852 阅读 · 1 评论 -
网络爬虫:爬取段子信息
1、说明:利用requests和正则表达式方法,爬取糗事百科网中”文字“专题的段子信息,并把爬取的数据存储在本地文件中。2、爬虫分析:(1)网址信息及规律:https://www.qiushibaike.com/text/page/1/https://www.qiushibaike.com/text/page/2/https://www.qiushibaike.com/text/page/3/(2)爬取信息:用户ID、用户等级、用户性别、发表段子文字信息、好笑数量和评论数量(3)将数据保存在t原创 2021-09-24 14:21:23 · 269 阅读 · 0 评论 -
网络爬虫:爬取小说数据
1、说明:本案例将利用Requests库和正则表达式方法,爬取斗破苍穹小说网中该小说的全文信息,并把爬取的数据存储在本地文件中。2、爬取思路:(1)网址信息及规律:http://www.doupoxs.com/doupocangqiong/2.htmlhttp://www.doupoxs.com/doupocangqiong/3.htmlhttp://www.doupoxs.com/doupocangqiong/4.htmlhttp://www.doupoxs.com/doupocangqion原创 2021-09-24 14:20:37 · 953 阅读 · 0 评论 -
网络爬虫:爬取某地区短租房信息
1、爬虫思路分析(1)原来的北京短租房的地址规则如下:http://bj.xiaozhu.com/http://bj.xiaozhu.com/search-duanzufang-p2-0/http://bj.xiaozhu.com/search-duanzufang-p3-0/http://bj.xiaozhu.com/search-duanzufang-p4-0/(2)需要爬取的信息有:标题、地址、价格、房东名称、房东性别和房东头像的链接"""# 案例要求:# 将利用到 Reques原创 2021-09-24 14:18:52 · 336 阅读 · 0 评论